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“这 本 书 是 越 来 越 多 的 信息 检索 著作 中 的 一 本 好 书 。 
一 一 Donald H. Kraft, 计算 机 评论 
“学 术 巨 匠 齐 聚 一 堂 编撰 了 一 部 信息 检索 的 优秀 教材 。Stefan Büttcher, Charles L. A. Clarke 和 Gordon 
V. Cormack 以 合计 超过 50 年 的 研究 经 验 ， 组 成 了 横 跨 三 代 的 信息 检索 研究 泰斗 组 合 …… 这 本 书 是 所 有 信 


息 检 索 研 究 者 和 从 业 人 员 的 必 读 教材 ! ” 
一 一 fi) Amit Singhal e759) 67 


信息 检索 葛 定 了 现代 搜索 引擎 的 基石 。 本 书 介绍 了 现代 搜索 技术 的 核心 主题 ， 包 括 算法 、 数 据 结构 、 索 
引 、 检 索 和 评价 ， 重 点 在 于 实现 和 实验 ， 每 一 章 都 有 练习 和 对 学 生 项 目的 建议 。Wumpus ( 本 书 其 中 一 位 作者 
开发 的 一 个 多 用 户 开源 信息 检索 系统 ， 可 以 在 网 上 下 载 ) 提供 了 模型 实现 ， 可 作为 学 生 练习 的 一 个 基础 。 本 
书 采 用 的 模块 化 结构 使 教师 可 以 将 此 书 用 于 不 同 水 平 的 研究 生 课程 中 ， 包 括 从 数据 库 系 统 角度 教授 的 课程 、 
专注 于 理论 的 传统 信息 检索 课程 和 关于 Web 检 索 基 础 的 课程 。 

对 信息 检索 的 基础 进行 介绍 之 后 ， 本 书 分 别 在 相应 的 部 分 介绍 了 3 个 重要 主题 一 一 索引 、 检 索 和 评价 。 本 
书 的 最 后 一 部 分 借用 并 扩展 了 前 面部 分 的 基本 内 容 ， 考 虑 了 以 下 具体 应 用 : 并 行 搜索 引擎 、Web 搜 索 和 XML 检 
索 。 除 了 用 于 课堂 教学 ， 本 书 对 计算 机 科学 、 计 算 机 工程 和 软件 工程 的 专业 人 员 来 说 也 具有 很 好 的 参考 价值 。 
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本 书 从 多 个 视角 对 信息 检索 技术 进行 了 深入 讲解 ， 内 容 涵盖 了 信息 检索 系统 的 架构 、 基 
础 技术 、 词 条 和 词 项 、 静 态 和 动态 倒 排 索引 、 查 询 处 理 、 索 引 压 缩 技术 、 概 率 模 型 、 语 言 模 
型 、 分 类 和 过 滤 、 了 融合 和 元 学 习 、 评 价 方 法 以 及 并 行 信息 检索 、Web 检索 和 XML 检索 等 具体 
应 用 。 本 书 以 模块 化 的 方式 进行 组 织 ， 理 论 性 强 ， 体 系 完 整 ， 同 时 强调 实践 。 作 者 以 认真 严 
谨 的 态度 实现 了 书 中 绝 大 部 分 的 主要 方法 ， 并 详尽 地 描述 了 各 种 方法 的 适用 环境 以 及 取得 的 
效果 。 

本 书 可 作为 高 等 院 校 信息 管理 与 信息 系统 、 计 算 机 科学 与 技术 、 情 报 学 、 图 书馆 学 以 及 
电子 商务 等 专业 的 高 年 级 本 科 生 和 研究 生 的 教材 和 参考 书 ， 对 于 从 事 信 息 检索 与 网 络 分 析 等 
实际 工作 的 从 业 人 员 也 具有 较 高 的 参考 价值 。 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 闻名 
家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
益 人 迫切。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ，3 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华 章 公 司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 就 将 
工作 重点 放 在 了 六 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 
良好 的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S.Tanenbaum, Bjarne Strous- 
trup, Brain W.Kernighan, Dennis Ritchie, Jim Gray, Afred V.Aho, John E.Hopcroft, 
Jeffrey D.Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hen- 
nessy, Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书” 为 总 称 出 版 ， 供 
读者 学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 相助 ， 国 内 的 专家 不 仅 提 供 了 
中 肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ;而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 处 书 ” 已 经 出 版 了 近 
两 百 个 品种 ， 这 些 书籍 在 读者 中 树立 了 和 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐渐 深 
化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公司 欢迎 老师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 

华章 网 站 : www. hzbook.com 

电子 邮件 : hzjsj@hzbook.com 

联系 电话 : (010) 88379604 

KAM: 北京 市 西城 区 百 万 庄 南 街 1 号 

邮政 编码 ，100037 
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由 于 手机 、 个 人 电脑 、 互 联网 等 信息 工具 的 快速 发 展 和 进化 ， 个 人 可 获取 和 管理 的 信息 
量 呈 爆发 式 增长 ， 如 何 快速 准确 地 找到 所 需 的 信息 成 为 信息 处 理 中 的 一 个 难题 。 信 息 检索 技 
术 是 解决 该 问题 的 主要 方法 ， 其 最 初 来 源 于 图 书 内 容 的 索引 和 检索 ， 近 些 年 来 由 于 互联 网 的 
发 展 ， 以 此 为 基础 的 搜索 引擎 技术 使 其 受到 了 广泛 的 关注 和 研究 。 国 内 无 论 是 高 等 院 校 相关 
专业 方向 的 研究 生 ， 还 是 对 搜索 技术 感 兴趣 的 研究 者 和 开发 人 员 ， 都 迫切 需要 一 本 全 面 专业 
的 信息 检索 书籍 。 

国内 引进 了 多 本 信息 检索 领域 的 书籍 ， 本 书 是 其 中 较 新 较 有 特色 的 一 本 。 它 以 模块 化 的 
方式 进行 组 织 ， 从 多 个 视角 对 信息 检索 技术 进行 了 深入 的 解析 ， 并 补充 了 相关 学 科 的 基本 知 
识 ， 例 如 通用 的 符号 数据 压缩 技术 、 统 计 分 析 、 机 器 学 习 、 数 据 库 、Web 结构 、XML 等 
等 ， 使 读者 免 去 了 查阅 大 量 资 料 和 其 他 书籍 的 麻烦 。 这 本 书 理 论 性 强 ， 体 系 完 整 ， 同 时 也 很 
强调 实践 。 作 者 以 认真 严谨 的 态度 对 书 中 绝 大 部 分 的 主要 方法 给 出 了 实现 细节 和 分 析 ， 并 通 
过 实验 对 比 了 这 些 方法 ， 详 尽 地 描述 了 各 种 方法 的 适用 环境 以 及 取得 的 效果 ， 为 信息 检索 在 
具体 环境 下 的 应 用 提供 了 很 好 的 参考 。 在 每 一 章 最 后 的 延伸 阅读 和 参考 文献 部 分 ， 读 者 还 可 
以 了 解 到 该 章 相关 知识 点 的 研究 历史 、 发 展 和 目前 最 新 状况 ， 也 可 据 此 对 相关 内 容 进行 更 深 
和 的 了 解 和 研究 。 课 后 练习 也 经 过 了 精心 的 设计 ， 各 章 习题 彼此 关联 、 循 序 渐进 ， 能 够 帮助 
读者 更 好 地 理解 各 章 的 知识 点 。 

感谢 原著 作者 无 私 地 分 享 了 他 们 在 信息 检索 领域 内 的 独特 见解 和 研究 成 果 。 在 过 去 几 个 
月 中 ， 胡 清 兰 、 吴 灿 荣 、 李 仕 钊 、 黄 锦 捷 、 李 蓝 、 黄 花 平 、 黄 甜 都 参与 了 部 分 翻译 、 审 校 工 
作 。 感 谢 徐 亚 波 老师 及 其 学 生 给 出 的 宝贵 意见 。 当 然 ， 本 书 的 翻译 工作 得 以 顺利 完成 ， 还 要 
感谢 机 械 工业 出 版 社 的 王 春 华 编辑 和 其 他 所 有 工作 人 员 在 各 方面 的 支持 和 帮助 。 最 后 ， 对 于 
给 予 我 们 无 私 帮助 的 那些 人 致 以 诚挚 的 谢意 。 

由 于 译 者 水 平 有 限 ， 书 中 玻 漏 在 所 难免 ， 敬 请 读者 批评 指正 。 
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FRE RFT R— Soe ST RRR RA SAM. Stefan Büttcher, Charles Clarke 
和 Gordon Cormack 以 合计 超过 五 十 年 的 研究 经 验 ， 组 成 了 横 跨 三 代 的 信息 检索 研究 泰斗 组 
合 。Biittcher 是 Clarke 的 博士 生 ， 而 Clarke 是 Cormack 的 博士 生 。 他 们 三 人 都 以 对 信息 检 
索 的 深入 洞察 和 建立 实用 搜索 系统 的 热情 而 闻名 ， 这 种 组 合 在 一 个 充满 世界 级 的 研究 专家 的 
领域 中 是 很 少见 的 。 

本 书 涵 盖 了 搜索 引擎 的 各 个 重要 组 成 部 分 ， 从 爬虫 到 索引 到 查询 过 程 。 大 部 分 章节 用 于 
介绍 索引 、 检 索 方 法 和 评价 的 核心 主题 。 重 点 放 在 实现 和 实验 上 ， 以 让 读者 了 解 到 信息 检索 
系统 的 底层 细节 ， 包 括 索 引 压 缩 和 索引 更 新 策略 ， 同 时 让 读者 理解 在 实际 中 哪 一 种 方法 效果 
更 好 。 关 于 评价 的 两 章 提供 了 评价 搜索 引擎 的 方法 论 和 统计 学 基础 ， 使 得 读者 能 够 知道 ， 例 
如 改变 搜索 引擎 的 排名 公式 是 否 对 检索 结果 的 质量 有 一 个 正面 的 影响 。 关 于 分 类 的 一 章 介绍 
了 对 高 级 搜索 操作 非常 有 用 的 机 器 学 习 技 术 ， 例 如 如 何 将 查询 限制 在 某 种 特定 语言 书写 的 文 
档 中 ,或 者 如 何 过 滤 搜 索 结 果 中 的 不 良 信息 。 关 于 并 行 信息 检索 和 Web 搜索 的 章节 描述 了 
从 一 个 基本 的 信息 检索 系统 变 为 一 个 涵盖 数 十 亿 文 档 并 同时 为 成 千 上 万 的 用 户 服务 的 大 规模 
检索 服务 系统 时 所 必须 做 出 的 改变 。 

通过 引用 数 以 百 计 的 研究 文献 ， 作 者 对 当今 信息 检索 研究 状况 给 出 了 指导 性 的 概述 ， 这 
个 概述 的 高 度 远 远 超过 了 那些 一 般 的 综述 。 通 过 使 用 一 个 运行 样 例 集 和 一 个 通用 框架 ， 他 们 
具体 描述 了 在 每 个 环节 中 的 重要 方法 一 一 为 什么 这 些 方法 行 得 通 ， 它 们 是 如 何 实 现 的 ， 以 及 
它们 是 如 何 工作 的 。 为 了 写 这 本 书 ， 作 者 几乎 实现 和 测试 了 每 一 个 重要 的 方法 ， 进 行 了 数 百 
次 实验 ， 并 增加 了 对 实验 结果 的 阐述 。 每 一 章 最 后 的 练习 题 鼓励 读者 自己 动手 去 建立 系统 并 
进行 探索 。 

这 本 书 是 所 有 信息 检索 研究 者 和 从 业 人 员 的 必 读 教材 ! 


Amit Singhal，Google Fellow 
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Information Retrieval: Implementing and Evaluating Search Engines 


信息 检索 商定 了 现代 搜索 引擎 的 基石 。 在 这 本 教材 中 ， 我 们 针对 计算 机 科学 、 计 算 机 工 
程 和 软件 工程 的 研究 生 以 及 专业 人 员 介 绍 了 信息 检索 。 选 择 的 主题 引起 了 大 部 分 读者 的 兴 
趣 ， 涵 盖 了 算法 、 数 据 结构 、 索 引 、 检 索 和 评价 的 核心 主题 ， 为 读者 今后 的 学 习 提 供 广博 的 
基础 。 同 时 考虑 Web 搜索 引擎 、 并 行 系统 和 XML 检索 在 已 有 和 新 的 应 用 场景 的 特性 。 

我 们 的 目的 是 在 理论 与 实践 之 间 取 得 平衡 ， 稍 微 偏向 于 实践 ， 强 调 实 现 和 实验 。 只 要 有 
可 能 ， 本 书 中 的 方法 都 通过 实验 进行 了 对 比 和 验证 。 每 一 章 都 包含 了 练习 和 学 生 项 月。 本 书 
其 中 一 位 作者 开发 的 一 个 多 用 户 开源 信息 检索 系统 Wumpus， 提 供 了 模型 实现 ， 可 作为 学 生 
练习 的 基础 。 可 以 通过 www.wumpus-search.org 获取 Wumpus, 


本 书 组 织 


本 书 以 模块 化 结构 组 织 ， 可 分 为 5 个 部 分 。 第 一 部 分 提供 了 介绍 性 的 材料 。 第 二 至 第 四 
部 分 ， 每 部 分 专注 于 一 个 重要 主题 领域 : 索引、 检索 和 和 评价。 阅读 完 第 一 部 分 后 ， 第 二 至 第 
四 部 分 都 可 以 分 别 单独 阅读 。 第 五 部 分 主要 基于 前 面部 分 的 内 容 来 介绍 具体 的 应 用 领域 。 

第 一 部 分 涵盖 了 信息 检索 的 基础 知识 。 第 1 章 讨论 基本 概念 ， 包 括 信息 检索 系统 的 架 
构 、 术 语 、 文 本 特征 、 文 档 格 式 、 词 项 分 布 、 语 言 模型 和 测试 集 。 第 2 章 介绍 3 个 重要 主题 
(索引 、 检 索 和 评价 ) 的 基础 。 这 3 个 主题 稍 后 在 各 自 所 属 的 部 分 (第 二 至 第 四 部 分 ) 有 详 
细 介 绍 。 这 一 章 也 为 读者 可 以 独立 阅读 每 个 主题 或 多 或 少 地 提供 了 基础 。 第 一 部 分 的 最 后 一 
章 ， 即 第 3 章 ， 继 续 介 绍 了 在 第 1 章 中 引入 、 在 第 2 章 中 结束 的 部 分 主题 。 它 涉及 的 问题 与 
具体 的 自然 〈 即 人 类 ) 语言 相关 ， 特 别 是 分 词 (tokenization) 为 了 进行 索引 和 检索 而 
将 一 个 文档 转化 成 一 个 词 项 序列 的 过 程 。 一 个 信息 检索 系统 必须 能 够 处 理由 多 种 自然 语言 混 
合 的 文档 ， 而 这 一 章 就 是 从 这 方面 讨论 几 种 主要 语言 的 重要 特性 。 

第 二 部 分 主要 讨论 倒 排 索引 的 创建 、 访 问 和 维护 。 第 4 章 讨论 建立 和 访问 静态 (static) 
索引 的 算法 ， 这 种 索引 适用 于 不 常 变动 的 文档 集 ， 即 当 文 档 发 生变 动 时 ， 有 足够 的 时 间 来 重 
新 从 头 建立 索引 。 第 5 章 讨论 索引 访问 和 查询 过 程 ， 这 一 章 介绍 一 种 轻 量 级 的 方法 来 处 理 文 
档 结构 ， 并 使 用 这 种 方法 来 支持 布尔 约束 。 第 6 章 介绍 索引 压缩 。 第 7 章 提 出 用 于 维护 动态 
(dynamic) 文档 集 的 算法 ， 也 就 是 文档 的 更 新 相对 于 查询 次 数 是 频繁 的 ， 同 时 要 求 更 新 必须 

第 三 部 分 介绍 了 检索 方法 和 算法 。 第 8 章 和 第 9 章 介绍 并 比较 两 种 基于 文档 内 容 的 重要 
排名 检索 方法 : 概率 模型 和 语言 模型 。 通 过 使 用 文档 结构 、 反 馈 和 查询 扩展 ， 可 考虑 利用 一 
些 显 式 的 相关 信息 来 提高 这 些 方法 的 有 效 性 。 我 们 讨论 了 每 种 方法 的 细节 。 第 10 章 介 绍 用 
于 文档 分 类 和 过 滤 的 技术 ， 包 括 用 于 分 类 的 基本 的 机 器 学 习 算法 。 第 11 章 介 绍 将 证 据 和 参 
数 调整 进行 整合 的 技术 ， 以 及 元 学 习 算 法 及 其 在 排名 中 的 应 用 。 . 

信息 检索 评价 是 第 四 部 分 的 主题 ， 用 独立 的 章节 分 别 介 绍 了 有 效 性 和 效率 。 第 12 章 给 
出 了 基本 的 有 效 性 度量 指标 ， 探 讨 了 用 于 评价 有 效 性 的 统计 基础 ， 并 讨论 了 一 些 在 最 近 10 
年 里 提出 的 度量 指标 ， 它 们 已 经 超出 了 传统 信息 检索 评价 方法 的 范围 。 第 13 章 介 绍 了 从 响 
应 时 间 和 吞吐 量 来 评价 信息 检索 系统 性 能 的 方法 。 
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第 五 部 分 是 全 书 的 最 后 一 部 分 ， 内 容 涉 及 一 些 具体 的 应 用 领域 ， 借 用 并 扩展 了 来 自前 四 
个 部 分 的 一 些 基本 内 容 。 第 14 章 介绍 了 并 行 搜索 引擎 的 架构 和 操作 。 第 15 章 讨 论 了 关于 
Web 搜索 引擎 的 一 些 主题 ， 包 括 链接 分 析 、 抓 取 和 重复 检查 。 第 16 BHAT XML 文档 集 
上 的 信息 检索 。 . 

书 中 的 每 一 章 都 包含 了 一 个 小 节 为 深入 阅读 提供 了 参考 文献 ， 还 提供 了 一 组 练习 题 。 练 
习题 一 般 偏向 于 考查 和 扩展 相应 章节 介绍 的 概念 。 有 些 练习 只 需 用 铅笔 和 纸 花 上 几 分 钟 就 能 
做 好 ; 有 些 则 是 需要 大 量 编程 的 项 目 。 这 些 参 考 文献 和 练习 题 同 时 也 为 我 们 提供 了 机 会 来 学 
习 一 些 在 该 章 的 正文 部 分 没有 涵盖 的 重要 概念 和 主题 。 

下 面 的 示意 图 展示 了 本 书 的 各 章 和 各 部 分 之 间 的 关系 。 箭 头 表示 各 章 之 间 的 依赖 关系 。 
本 书 的 组 织 使 得 读者 可 以 关注 主题 的 不 同方 面 。 从 数据 库 系统 实现 的 观点 来 教授 的 课程 可 以 
包括 第 1 一 2、4~7 和 13 一 14 章 。 专 注 于 理论 的 传统 信息 检索 课程 可 以 包括 第 1 一 3、8 一 12 
和 16 章 。 关 于 Web 检索 基础 的 课程 可 以 包括 第 1 一 2、4 一 5、8 和 13 一 15 章 。 每 一 种 涵盖 
的 章节 数 约 占 全 书 的 1/2 一 2/3， 可 以 在 一 个 3 一 4 个 月 的 研究 生 课 程 中 完成 。 








本 书 的 组 织 。 各 章 之 间 的 箭头 表示 它们 之 间 的 依赖 关系 
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我 们 假设 读者 拥有 计算 机 科学 、 计 算 机 工程 、 软 件 工程 或 相关 学 科 的 本 科 相 当 的 基本 背 
景 知识 ， 包 括 : 1) 基本 数据 结构 的 概念 ， 例 如 链表 数据 结构 、B 树 和 哈 希 函数 ;2) 算法 
和 时 间 复 杂 度 分 析 ; (3) 操作 系统 、 磁 盘 设 备 、 内 存 管 理 和 文件 系统 。 另 外 ， 我 们 假设 一 些 
读者 熟悉 初等 概率 论 和 统计 学 ， 包 括 如 随机 变量 、 分 布 和 概率 群 分 布 函数 等 概念 。 
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为 了 便于 参考 ， 以 下 列表 总 结 了 本 书 中 常见 的 符号 。 其 他 必要 的 符号 也 在 表 中 列 出 了 。 
C 文本 集 


d 文档 

E[X] 随机 变量 X 的 期 望 值 

Soa 词 项 上 出 现在 文档 4 中 的 次 数 

Lava 文档 集中 所 有 文档 的 平均 长 度 

le 文档 集 C 的 大 小 ， 以 词 条 数 来 衡量 

la 文档 a 的 长 度 ， 以 词 条 数 来 衡量 

l t 的 位 置信 息 列 表 的 长 度 《〈 即 出 现 次 数 ) 
M 概率 分 布 ; 通常 是 一 个 语言 模型 或 一 个 压缩 模型 
N 文档 集中 的 文档 数 

N, 包含 词 项 i 的 文档 数 

n 相关 文档 数 

n, 包含 词 项 t 的 相关 文档 数 


Pr [z] Wc AR 
Pr [zjy] 给 定 y， 事 件 x 的 条 件 概率 


9 查询 

q: 词 项 t 在 查询 9 中 出 现 的 次 数 
t 词 项 

V 文本 集 的 词汇 表 

w 向 量 

Ce] 向 量 训 的 长 度 


[x] 集合 X 的 势 GRAY 的 大 小 
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| 第 1 章 


Information Retrieval: Implementing and Evaluating Search Engines 


a 论 


1.1 什么 是 信息 检索 


信息 检索 (Information Retrieval, IR) 被 认为 是 对 大 规模 电子 文本 和 其 他 人 类 语言 

据 进行 表示 、 搜 索 和 处 理 的 技术 。 信 息 检 索 系统 和 服务 现在 已 经 非常 普遍 了 ， 成 千 上 万 的 人 
每 天 都 使 用 它们 来 方便 地 进行 商务 、 教 育 和 娱乐 。Google、Bing 等 Web 搜索 引擎 ， 是 目前 
为 止 最 普遍 和 大 量 使 用 信息 检索 服务 的 形式 ， 提 供 获取 最 新 技术 信息 、 搜 索 人 和 组 织 、 总 结 
新 闻 和 事件 以 及 简化 比较 购物 的 途径 。 电 子 图 书馆 系统 帮助 医学 界 和 学 术 界 的 研究 人 员 了 解 
他 们 研究 领域 内 最 新 的 期 刊 文章 和 会 议 报告 。 消 费 者 使 用 本 地 搜索 服务 来 找到 提供 所 需 产品 
和 服务 的 零售 商 。 在 大 型 公司 中 ， 企 业 搜 索 系 统 作 为 电子 邮件 、 备 忘 录 、. 技 术 报告 和 其 他 业 
务 文档 的 存储 库 ， 通 过 保存 这 些 文档 和 提供 相应 的 手段 获得 文档 蕴涵 的 知识 来 提供 企业 记 
忆 。 桌 面 搜索 系统 则 允许 用 户 搜索 他 们 的 个 人 电子 邮件 、 文 档 和 文件 。 


1.1.1 Web 搜索 


对 Web 搜索 引擎 的 一 般 用 户 而 言 ， 通 常 希望 只 要 在 一 个 文本 框 里 输入 一 个 简短 的 查 
询 一 一 几 个 简单 的 词 ， 然 后 点 击 一 下 搜索 按钮 ， 马 上 就 可 以 得 到 问题 的 精确 答案 。 在 这 简单 直 
观 的 界面 后 面 是 一 组 计算 机 集群 ， 包 括 成 千 上 万 台 协 同 工 作 的 机 器 ， 用 来 产生 最 有 可 能 满足 查 
询 中 所 包含 信息 的 网 页 排名 列表 。 这 些 机 器 要 识别 包含 查询 词 的 网 页 集合 ， 计 算 每 个 网 页 的 得 
分 ， 消 除 重复 和 多 余 的 页 面 ， 生 成 余下 页 面 的 摘要 ， 最 后 将 摘要 和 链接 返回 给 用 户 以 便 浏览 。 

为 了 达到 期 望 的 亚 秒 级 响应 时 间 目 标 ，Web 搜索 引擎 结合 多 层 缓存 和 复制 机 制 、 利 用 
最 常见 的 查询 ， 并 开发 并 行 处 理 机 制 ， 使 它们 能 够 随 着 快速 增长 的 网 页 和 用 户 数量 同步 扩 
展 。 为 了 得 到 精确 的 查询 结果 ， 它 们 存储 Web 的 一 个 “快照 ” (snapshot) 。 这 个 快照 必须 
由 运行 在 成 千 上 万 台 机 器 构成 的 集群 上 的 Web IB (crawler) 不 断 采 集 和 更 新 ， 定 期 下 载 
每 个 页 面 的 最 新 副本 ， 周 期 也 许 是 每 周一 次 。 包 含 快 速 变化 信息 的 高 品质 网 页 ， 例 如 新 闻 服 
务 ， 则 可 能 每 天 或 每 小 时 都 会 被 更 新 。 

来 看 一 个 简单 的 例子 ， 假 设 你 身边 有 一 台 可 以 连接 到 Internet 的 计算 机 ， 请 你 用 一 分 钟 
的 时 间 打 开 一 个 浏览 器 并 尝试 在 一 个 主流 商业 Web 搜索 引 警 上 输入 “information retrieval” 
进行 查询 ， 搜 索引 擎 通常 在 一 秒 钟 之 内 就 会 响应 。 花 一 些 时 间 来 看 看 前 10 个 结果 ， 每 一 个 
结果 都 列 出 一 个 网 页 的 URL， 通 常 还 提供 了 一 个 标题 和 一 个 从 网 页 正文 提取 的 简短 的 文字 
片段 。 总 的 来 说 ， 结 果 来 自 多 个 不 同 的 网 站 ， 包 括 与 主要 教科 书 、 期 刊 、 会 议和 其 他 研究 者 
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相关 的 网 站 。 类 似 这 样 常见 的 信息 性 〈informational) iJ, Wikipedia® 的 文章 可 能 出 现在 
结果 和 集中。 前 10 个 结果 是 否 包含 了 不 合适 的 内 容 ? 它们 的 顺序 是 否 还 可 以 再 改进 呢 ? 让 我 
们 看 一 下 紧 接 的 后 10 个 结果 ， 看 看 其 中 的 一 个 是 否 可 以 苦 代 前 10 个 中 的 一 个 。 

ME, 我们 考 虚数 以 百 万 计 的 包含 了 “information” 和 “retrieval” 这 两 个 词 的 网 页 集 
合 。 这 个 集合 包含 了 很 多 与 信息 检索 主题 相关 的 网 页 ， 但 这 些 网 页 不 如 排 在 最 前 面 的 10 个 
结果 那么 一 般 化 ， 例 如 学 生 主 页 和 个 别 研 究 论文 。 另 外 ， 这 个 集合 还 包括 很 多 恰好 包含 了 这 
两 个 词 但 却 与 这 个 主题 没有 任何 直接 联系 的 网 页 。 搜 索引 擎 的 排名 算法 基于 一 系列 的 特征 ， 
从 这 上 百 万 个 可 能 的 网 页 中 选择 出 排 在 最 前 面 的 网 页 ， 这 些 特征 包括 网 页 的 内 容 和 结构 CB 
如 标题 ) 、 网 页 之 间 的 关系 〈 例 如 它们 之 间 的 链接 关系 ) 以 及 整个 Web 的 结构 和 内 容 。 对 于 
某 些 查询 ， 用 户 的 某 些 特征 ， 例 如 她 所 在 的 地 理 位 置 或 以 往 的 搜索 行为 ， 也 可 能 会 起 到 一 和 定 
的 作用 。 权 衡 这 些 特征 ， 以 便 以 用 户 所 期 望 的 查询 相关 性 来 对 网 页 进行 排名 ， 是 相关 性 排名 
(relevance ranking) 的 一 个 例子 。 在 不 同 的 背景 和 要 求 下 有 效 实现 和 评价 相关 性 排名 算法 是 
信息 检索 的 核心 问题 ， 也 是 本 书 的 中 心 议 题 。 


1.1.2 ”其 他 搜索 应 用 


桌面 和 文件 系统 搜索 是 信息 检索 广泛 应 用 的 另 一 个 实例 。 桌 面 搜索 引擎 提供 对 存储 在 本 
地 硬盘 ， 甚 至 内 部 网 络 上 的 其 他 硬盘 内 的 文件 进行 搜索 和 浏览 的 手段 。 与 Web 搜索 引擎 相 
比 ， 桌 面 搜索 引擎 系 统 需要 对 文件 格式 和 创建 时 间 有 更 多 的 了 解 。 例 如 ， 用 户 可 能 希望 只 搜 
索 他 们 的 电子 邮件 ， 或 只 知道 文件 创建 或 下 载 的 大 致 时 间 。 因 为 文件 可 能 变化 很 快 ， 所 以 这 
些 系统 必须 与 操作 系统 的 文件 系统 层 直接 交互 ， 并 且 要 设计 得 能 够 处 理 高 负荷 的 更 新 。 

介 于 桌面 和 普通 的 Web 搜索 之 间 ， 企 业 级 信息 检索 系统 为 企业 和 其 他 组 织 提供 文档 管 
理 和 搜索 服务 。 这 些 系 统 的 实现 细节 千差万别 。 有 一 些 基本 上 就 是 将 Web 搜索 引擎 运用 到 
企业 内 部 网 ， 仅 抓 取 组 织 内 部 可 见 的 网 页 并 提供 类 似 标准 Web 搜索 引擎 那样 的 搜索 界面 。 
另 一 些 则 提供 更 一 般 化 的 文档 和 内 容 管理 服务 ， 可 以 方便 地 进行 显 式 更 新 、 版 本 控制 和 访问 
控制 。 在 许多 行业 ， 这 些 系统 能 满足 有 关 电 子 邮件 和 保持 其 他 商务 联系 的 监管 要 求 。 

数字 图 书馆 和 其 他 专业 信息 检索 系统 支持 对 高 品质 资料 集 的 访问 ， 这 些 资 料 集 常常 是 专 
有 的 ， 可 包括 报纸 文章 、 医 学 期 刊 、 地 图 、 图 书 等 ， 由 于 版 权 的 问题 不 能 放 在 一 个 普通 的 网 
站 里 。 考 虑 到 这 些 资料 的 编辑 质量 和 有 限 范 围 ， 通 常 可 利用 结构 化 的 特征 一 一 作者 、 标 题 、 
日 期 和 其 他 出 版 数据 一 一 来 缩小 查询 需求 和 提高 检索 效率 。 此 外 ， 电 子 图 书馆 可 能 包含 由 光 
学 字符 识别 (Optical Character Recognition, OCR) 系统 从 印刷 资料 中 提取 的 电子 文本 ， 由 
OCR 输出 带 来 的 字符 识别 错误 会 给 检索 过 程 带 来 更 复杂 的 情况 。 


1.13 ”其 他 信息 检索 应 用 


搜索 是 信息 检索 领域 的 中 心 任务 ， 但 信息 检索 还 涵盖 了 存储 、 处 理 和 检索 人 类 语言 数据 
等 各 种 相互 关联 的 问题 : | 

。 文档 路 由 、 过 滤 和 选择 性 传播 (routing, filtering, and selective dissemination) 是 典 

型 信息 检索 过 程 的 反 过 程 。 一 个 典型 的 搜索 应 用 是 在 一 组 给 定 的 文档 集合 上 评价 一 

个 输入 查询 ， 而 一 个 路 由 、 过 滤 或 传播 系统 则 将 最 新 创建 或 发 现 的 文档 与 一 组 预先 

由 用 户 提供 的 固定 查询 进行 比较 ， 最 符合 给 定 查询 的 文档 被 确定 为 用 户 最 有 可 能 感 兴 
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趣 的 文档 。 例 如 一 个 新 闻 聚 合 器 ， 就 可 能 使 用 一 个 路 由 系统 将 当天 的 新 闻 分 为 “ 商 
业 ”、“ 政 治 ” 和 “生活 ”类 ， 或 将 按 兴 趣 划 分 的 头条 新 闻 发 送 到 特定 的 订阅 者 那里 。 
一 个 电子 邮件 系统 可 以 运用 一 个 垃圾 邮件 过 滤器 来 拦截 不 需要 的 消息 。 正 如 我 们 将 
要 看 到 的 那样 ， 尽 管 这 两 个 问题 在 具体 应 用 和 实现 细节 上 不 一 样 ， 但 它们 在 本 质 上 
是 一 样 的 。 

文本 聚 类 (clustering) 和 分 类 (categorization 系统 根据 共有 属性 将 文档 分 组 。 取 
类 和 分 类 之 间 的 差异 源 于 对 系统 提供 的 信息 。 我 们 提供 训练 数据 (training data) 给 
分 类 系统 来 说 明 不 同 的 类 别 。 例 如 将 “商业 ”、“ 政 治 ” 和 “生活 ”类 的 文章 样 例 提 
交 给 分 类 系统 ， 接 下 来 分 类 系统 就 能 将 未 标记 的 文章 放 进 相应 的 类 别 中 。 与 此 相反 ， 
聚 类 系统 不 需要 训练 样本 ， 它 将 文档 按照 它 自己 发 现 的 模式 分 到 不 同 的 组 别 里 。 

。 摘要 (summarization) 系统 将 文档 缩减 为 一 些 能 描述 它们 内 容 的 关键 段落 、 句 子 或 
词组 。Web 搜索 结果 中 的 文本 片段 就 是 其 中 的 一 个 例子 。 

信息 提取 (information extraction) 系统 识别 命名 实体 ， 例 如 场所 和 日 期 ， 并 将 这 些 
信息 合并 为 描述 这 些 实体 之 间 的 关系 的 结构 化 记录 一 一 例如 ， 从 Web 数据 中 创建 书 
籍 和 它们 的 作者 列表 。 

话题 检测 与 跟踪 (topic detection and tracking) 系统 从 新 闻 流 和 其 他 类 似 的 信息 源 
中 识别 事件 ， 并 跟踪 相关 的 事件 。 

专家 搜索 (expert search) 系统 找 出 组 织 里 谁 是 某 一 特定 领域 的 专家 。 

问答 (question answering) 系统 整合 了 多 个 来 源 的 信息 ， 并 为 特定 问题 提供 简明 的 
回答 。 它 们 往往 合并 和 扩展 了 其 他 的 信息 检索 技术 ,包括 搜索 、 摘 要 和 信息 提取 。 
多 媒体 信息 检索 (multimedia information retrieval) 系统 将 相关 的 排名 和 其 他 信息 
检索 技术 扩展 到 图 像 、 视 频 、 音 乐 和 语音 中 去 。 

很 多 信息 检索 问题 涵盖 了 图 书馆 和 信息 科学 领域 还 有 很 多 计算 机 科学 中 的 其 他 主题 领 
例如 自然 语言 处 理 、 数 据 库 和 机 器 学 习 。 

在 以 上 列 出 的 主题 中 ， 分 类 和 过 滤 技 术 已 经 被 广泛 使 用 ， 并 且 我 们 对 这 些 领域 进行 了 介 
绍 。 由 于 篇 幅 有 限 ， 我 们 无 法 对 其 他 的 主题 进行 深信。 但是， 它们 都 依赖 于 和 扩展 了 本 书 介 
绍 的 基本 技术 。 


12 ”信息 检索 系统 


大 部 分 信息 检索 系统 都 有 一 个 共同 的 基础 组 织 架 构 ， 这 个 基础 组 织 架构 能 够 根据 具体 的 
应 用 需求 做 调整 以 达到 适用 。 本 书 讨论 的 大 部 分 概念 都 基于 这 个 基础 架构 来 介绍 。 此 外 ， 与 
其 他 技术 领域 一 样 ， 信 息 检 索 也 有 自己 的 专业 术语 。 当 从 某 一 特定 技术 观点 出 发 时 ， 词 的 解 
释 往 往 与 其 普通 的 意思 有 很 大 的 不 同 。 为 了 避免 混淆 以 及 对 书 中 后 面部 分 的 介绍 提供 一 些 背 
景 知 识 ， 我 们 将 简 述 该 主题 涉及 的 基本 术语 和 技术 名 词 。 


1.2.1 信息 检索 系统 基础 架构 


图 1-1 展示 了 信息 检索 系统 的 主要 组 成 部 分 。 在 执行 搜索 之 前 ， 用 户 会 有 一 个 信息 需求 
(information need) ， 这 种 信息 需求 能 够 引发 并 驱动 一 次 查询 处 理 。 我 们 有 时 把 这 个 信息 需求 称 
为 主题 〈topic) ， 特 别 是 当 其 以 书面 形式 被 提出 来 作为 一 个 信息 检索 系统 性 能 评价 的 测试 集 的 
一 部 分 时 。 在 信息 需求 的 驱动 下 ， 用 户 构造 一 个 查询 (query) 并 提交 给 信息 检索 系统 。 一般 
来 说 ， 这 个 查询 由 多 个 词 项 (term) 组 成 ， 对 于 网 络 搜索 ， 大 部 分 查询 包含 2 一 3 个 词 项 。 这 
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里 我 们 使 用 “ 词 项 ”而 不 用 “ 词 ”(word) ， 主 要 原因 是 在 应 用 中 一 个 查询 词 项 可 能 根本 不 是 一 
个 词 。 根 据 实际 的 信息 需求 ， 查 询 词 项 可 能 会 是 日 期 、 数 字 、 音 符 或 者 鹿 组 (phrase)， 甚 至 还 
可 以 是 通配符 或 者 其 他 的 部 分 匹配 符 。 例 如 ， 词 项 “inform x ”可 以 匹配 任何 以 “inform” 为 
前 缀 的 词 Gu “inform”, “informs”, “informal”, “informant” FR “informative” $). 


信息 需求 














IIH 








W 删除 搜索 引擎 增加 
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文 
人 
图 1-1 信息 检索 系统 的 组 成 


虽然 用 户 往往 提交 的 是 简短 的 关键 字 查 询 ， 但 是 信息 检索 系统 通常 也 支持 丰富 的 查询 语 
法 ,通常 包含 复杂 的 布尔 表达 式 和 模式 匹配 操作 符 (第 5 章 ) 。 这 些 查询 手段 可 以 用 于 将 搜 
索 限 制 在 某 一 特定 网 站 上 ， 或 是 在 一 些 字段 ， 如 作者 和 标题 上 指定 一 些 约束 条 件 ， 又 或 者 是 
使 用 其 他 的 过 滤器 (filter) 将 搜索 范围 锁定 到 部 分 文档 集 上 。 用 户 界面 是 用 户 和 信息 检索 
系统 之 间 的 接口 ， 使 用 查询 界面 提供 的 丰富 查询 手段 ， 可 以 简化 查询 的 创建 过 程 。 

用 户 查 询 由 搜索 引擎 (search engine) 处 理 ， 搜 索引 警 可 运行 在 用 户 本 地 机 器 上 ， 志 可 
运行 在 远程 的 大 型 机 器 集群 上 ， 或 者 介 于 二 者 之 间 的 任何 地 方 。 搜 索引 警 的 一 个 主要 任务 就 
是 为 文档 集 (document collection) 维护 和 处 理 倒 排 索引 (inverted index) 。 这 个 索引 便 是 引 
擎 完成 搜索 和 相关 性 排名 的 主要 数据 结构 。 作 为 一 个 基本 功能 ， 倒 排 索 引 给 出 了 词 项 及 它 在 
文档 集中 出 现 位 置 的 一 个 映射 。 由 于 倒 排 列表 与 文档 集 本 身 具有 相同 规模 ， 所 以 必须 确保 索 
引 访 问 和 更 新 操作 是 高 效 执行 的 。 l 

为 了 支持 相关 性 排名 算法 ， 搜 索引 擎 还 维护 与 索引 相关 的 文档 统计 信息 ， 比 如 包含 每 个 

， 词 项 的 文档 数 和 每 个 文档 的 长 度 。 此 外 ， 为 了 能 把 有 意义 的 结果 返回 给 用 户 ， 搜 索引 擎 通常 
还 要 能 访问 到 文档 原始 内 容 。 

利用 倒 排 索引 、 文 档 集 统计 信息 和 其 他 一 些 数据 ， 搜 索引 擎 接受 用 户 查 询 ， 处 理 这 些 查 

询 ， 最 后 返回 一 个 有 序 结果 列表 。 为 了 完成 相关 性 排名 ， 搜 索引 擎 为 每 个 文档 计算 一 个 得 分 
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(score)， 有 时 也 称 为 检索 状态 值 (Retrieval Status Value，RSV) 。 按 得 分 将 文档 排序 后 ， 
搜索 引擎 对 结果 列表 作 进 一 步 处 理 ， 比 如 删除 重复 或 多 余 的 结果 。 例 如 ，Web 搜索 引 警 有 
可 能 仅仅 从 一 个 主机 或 域名 中 返回 一 个 或 两 个 结果 ， 而 删除 了 其 他 来 源 的 相同 页 面 。 如 何 根 
据 用 户 的 查询 为 文档 评分 是 这 个 领域 内 最 基本 的 问题 之 一 。 


1.2.2 文档 及 其 更 新 


本 书 中 ， 我 们 用 “文档 ”(document) 这 个 通用 术语 来 代 指 那些 能 够 返回 给 用 户 作为 搜 
索 结 果 的 任何 独立 的 单元 。 实 际 上 ， 这 个 特殊 文档 可 能 是 电子 邮件 、 网 页 、 新 闻 文 章 ， 甚 至 
视频 。 一 个 大 对 象 中 预先 定义 好 的 组 成 部 分 也 可 能 作为 单独 的 搜索 结果 返回 给 用 户 ， 比 如 一 
本 书 的 某 些 页 或 某 些 段落 ， 我 们 称 这 些 组 成 部 分 为 元 素 (element) 。 当 任意 的 文本 段落 、 视 频 
片段 或 者 类 似 的 资料 从 大 对 象 中 作为 搜索 结果 返回 给 用 户 时 ， 我 们 称 这 些 为 片段 (snipped, 

对 于 大 部 分 应 用 来 说 ， 更 新 模型 相对 简单 。 文 档 总 是 作为 一 个 整体 被 添加 或 删除 。 一 旦 
一 个 文档 被 添加 到 搜索 引擎 ， 它 的 内 容 就 不 会 被 更 新 。 这 种 更 新 模型 足以 满足 大 多 数 的 信息 
检索 应 用 。 例 如 ， 当 Web 契 虫 发现 一 个 网 页 被 修改 了 ， 就 通过 删除 旧 网 页 和 增加 新 网 页 来 
完成 更 新 。 即 便 是 在 文件 系统 搜索 环境 中 ， 一 个 文件 的 某 个 部 分 被 进行 了 任意 的 修改 后 ， 当 
用 户 保存 修改 时 ， 大 部 分 词 处 理 程序 或 是 其 他 应 用 都 会 通过 重 写 整个 文件 来 处 理 文本 数据 。 
一 个 特例 是 电子 邮件 应 用 ， 通 常 是 将 新 到 来 的 邮件 追加 到 收 件 箱底 端 。 因 为 收 件 箱 通常 比较 
大 且 增 长 迅速 〈 所 以 不 可 能 每 次 稍 有 改动 就 重 写 整 个 文件 夹 一 译 者 注 )， 因 此 支持 追加 操 
作 就 显得 非常 重要 了 。 


1.2.3 ”性 能 评价 


一 般 从 两 个 基本 的 方面 来 衡量 信息 检索 系统 的 性 能 : BEER (efficiency) 和 有 效 性 〈ef- 
fectiveness) 。 效 率 的 评价 可 以 通过 时 间 (如 每 次 查询 的 执行 时 间 〉 和 空间 (如 每 个 文档 所 
占 的 字 节 数 ) 来 衡量 。 效 率 最 直观 的 反映 就 是 响应 时 间 (response time)， 通 常 也 称 为 延迟 
(latency) ， 即 用 户 提交 一 个 查询 到 获得 结果 所 经 历 的 时 间 。 当 需要 支持 大 量 用 户 的 并 发 操作 
时 ， 查 询 的 吞吐 量 (throughput)， 用 每 秒 钟 能 处 理 的 查询 数 来 衡量 ， 就 成 为 影响 系统 性 能 
的 重要 因素 。 对 于 一 个 通用 的 Web 搜索 引擎 ， 所 需 的 吞吐 量 可 能 每 秒 钟 远 远 超出 数 以 万 计 
的 查询 。 效 率 也 要 考虑 存储 空间 ， 一 般 通 过 存储 索引 和 其 他 数据 结构 所 需 的 磁盘 空间 或 者 内 
存 大 小 来 衡量 。 此 外 ， 当 有 上 千 台 机 器 为 产生 一 个 搜索 结果 同时 协同 工作 时 ， 它 们 的 耗 电 量 
和 碳 排放 量 也 是 一 个 重要 的 考虑 因素 。 

查询 结果 是 否 有 效 完全 取决 于 用 户 判 断 ， 所 以 衡量 有 效 性 比 衡 量 效率 要 困难 得 多 。 现 在 
评价 有 效 性 的 关键 思想 是 利用 相关 性 (relevance) 的 概念 ， 如 果 一 个 文档 内 容 能 够 (完全 或 
部 分 ) 满足 给 定 查询 的 信息 需求 ， 就 认为 该 文档 与 此 查询 相关 。 为 了 决定 文档 的 相关 性 ， 一 
个 评价 员 〈assessor) 审阅 一 个 文档 /主题 对 ， 并 给 出 一 个 相关 性 得 分 。 这 个 得 分 有 可 能 是 二 
4H (binary) 的 (“相关 ”或 “不 相关 ”)， 或 是 分 级 (graded) 的 (如 ，“ 太 好 了 ”、“ 很 好 ”、 
“$e” “AREY “RAT”. RIR”, “RET. 

相关 性 排名 的 基本 目标 通常 可 以 通过 概率 排名 原则 (Probability Ranking Principle, 
PRP) 体现 ， 具 体 描 述 如 下 : 

如 果 一 个 信息 检索 系统 对 查询 的 响应 是 按 文档 集中 文档 的 相关 性 概率 递减 排名 

的 ， 那 么 对 用 户 来 说 ， 系 统 的 整体 有 效 性 就 达到 最 大 。 

这 个 假设 在 信息 检索 领域 是 得 到 公认 的 ， 并 且 构 成 了 标准 信息 检索 系统 评价 方案 的 基 
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础 。 但 是 ， 它 忽略 了 相关 性 的 重要 性 ， 在 实际 中 ， 相 关 性 是 一 定 要 考虑 的 。 特 别 是 ， 相 关 性 
的 基本 概念 还 要 扩展 到 返回 文档 的 大 小 和 范围 。 文 档 的 特异 度 (specificity) 反映 了 文档 内 
容 与 信息 需求 关联 的 密切 程度 。 特 异 度 高 的 文档 应 主要 由 与 信息 需求 相关 的 材料 组 成 。 在 一 
个 特异 度 很 低 的 文档 中 ， 其 大 部 分 材料 都 与 查询 主题 无 关 。 文 档 的 详尽 性 (exhaustivity) 
反映 了 其 内 容 覆 盖 了 多 少 与 需求 相关 的 信息 。 一 个 详尽 性 高 的 文档 覆盖 了 所 有 与 需求 相关 的 
信息 ， 而 详尽 性 低 的 文档 可 能 只 覆盖 了 有 限 几 个 方面 。 特 异 度 和 详尽 性 是 两 个 独立 的 指标 。 
一 个 大 文档 可 能 有 很 高 的 覆盖 率 ， 但 是 由 于 包含 了 太 多 无 关 的 内 容 致 使 其 特异 度 很 低 。 

当 相 关 性 通过 一 个 已 排名 文档 列表 来 展现 的 时 候 ， 人 们 就 开始 关注 新 颖 性 (novelty) 
了 。 当 用 户 浏览 过 排名 靠 前 的 文档 并 了 解 了 相关 内 容 后 ， 她 的 信息 需求 可 能 会 变化 。 尽 管 有 
些 文档 排名 相当 人 靠 前 〈 例 如 第 二 )， 但 如 果 这 个 文档 只 包含 了 一 点 点 或 根本 没有 包含 新 颖 信 
息 时 ， 这 个 文档 就 与 已 改变 的 信息 需求 毫 不 相关 了 。 


1.3 ”使 用 电子 文本 


以 电子 文本 形式 存在 的 人 类 语言 数据 ， 是 信息 检索 最 原始 的 素材 。 构 建 信息 检索 系统 必 
须 同 时 理解 电子 文本 格式 以 及 不 同文 本 的 编码 特征 。 


1.3.1 文本 格式 


威廉 。 莎士比亚 (William Shakespeare) 的 著作 集 提 供 了 大 篇 幅 英 文 文本 现成 的 例子 ， 
网 上 有 许多 可 以 免费 下 载 的 电子 版 本 。 莎 士 比 亚 一 生 的 著作 包括 37 部 戏剧 ,一 百 多 首 十 四 
行 诗 和 诗歌 。 图 1-2 是 戏剧 《Macbeth》 剧 本 第 一 幕 的 开头 部 分 。 

这 幅 图 看 起 来 就 像 是 剧本 打印 在 一 张 纸 上 。 从 信息 检索 系统 的 角度 来 看 ， 当 这 一 页 剧本 
以 电子 文本 的 形式 存在 ， 并 最 终 需 要 在 系统 中 为 其 建立 索引 时 ， 需 要 考虑 两 个 方面 。 首 先是 
该 页 的 内 容 〈content) ， 也 就 是 从 这 一 页 中 按 正常 顺序 读 出 来 的 一 串 词 ， 如 “Thunder and 
lightning. Enter three Witches First Witch When shall we. ..”。 其 次 是 该 页 的 结构 (struc- 
ture) ， 也 就 是 行 和 页 中 的 间隔 、 演 员 人 台词 的 标记 、 舞 台 指 导 、 幕 次 和 场次 ， 甚 至 页 码 。 

电子 文本 的 内 容 和 结构 能 够 以 各 种 词 处 理 程序 和 桌面 排版 系统 支持 的 种 种 文档 格式 进行 
编码 。 这 些 格 式 包 括 Microsoft Word, HTML, XML, XHTML, BIEX, MIF, RTF, 
PDF, PostScript, SGML 等 。 在 某 些 璧 如 文件 系统 检索 这 样 的 环境 中 ，e-mail 格式 ， 甚 至 
是 程序 源 代码 格式 都 可 以 看 成 是 文档 格式 。 尽 管 这 些 格 式 的 细节 内 容 已 经 超出 了 本 书 范围 ， 
但 是 能 基本 了 解 它们 对 索引 和 检索 的 影响 仍然 是 非常 重要 的 。 

我 们 对 两 种 格式 特别 感 兴趣 。 第 一 种 是 HTML (HyperText Markup Language， 超 文本 
标记 语言 );， 它 是 网 页 的 基本 形式 。 特 别 值得 注意 的 是 ， 这 种 格式 内 在 地 支持 超 链接 ， 这 使 
得 网 页 之 间 的 关系 可 以 被 明确 地 表示 出 来 ， 并 且 Web 搜索 系统 可 以 对 这 些 关系 进行 利用 。 
锚 文 本 往往 伴随 着 一 个 超 链接 ， 部 分 描述 了 链接 网 页 的 内 容 。 

第 二 种 格式 是 XML (eXtensible Markup Language， 可 扩展 标记 语言 ) ， 从 严格 意义 上 
来 说 ， 它 不 是 一 种 文档 格式 ， 而 是 一 种 定义 文档 格式 的 元 语言 (metalanguage)。 后 面 我 们 
会 详细 讨论 XML (第 16 章 )， 现 在 先 直 接 使 用 它 。XML 具有 易 用 的 特性 ， 用 它 来 构造 易 读 
编码 的 理由 是 不 言 自明 的 。 因 此 ， 这 本 书后 面 的 所 有 例子 中 ， 特 别 是 在 讨论 文档 结构 的 时 
候 ， 都 是 采用 XML 格式 。HTML 和 XML 一样， 都 是 从 20 世纪 80 年 代 出 现 的 标准 通用 标 
记 语 言 (Standard Generalized Markup Language, SGML) 发 展 过 来 的 ， 并 且 它 们 标记 文档 
结构 的 方法 类 似 。 
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Thunder and lightning. Enter three Witches 

FIRST WITCH 

When shall we three meet again 

In thunder, lightning, or in rain? 
SECOND WITCH 

When the hurlyburly’s done, 

When the battle’s lost and won. 
THIRD WITCH 

That will be ere the set of sun. 
FIRST WITCH 

Where the place? 
SECOND WITCH Upon the heath. 
THIRD WITCH 

There to meet with Macbeth. 
FIRST WITCH 

I come Grey-Malkin! 
SECOND WITCH Padock calls. 
THIRD WITCH Anon! 
ALL 

Fair is foul, and foul is fair. 

Hover through the fog and filthy air. Ereunt 


Alarum within 
Enter King Duncan, Malcolm, Donalbain, Lennoz, 
with Attendants, meeting a bleeding Captain 
KING 
What bloody man is that? He ‘can report, 
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图 1-2 PEL Woes (Macbeth) S—PIF KMD 


图 1-3 是 莎士比亚 文集 某 个 版 本 的 《IMacbeth》 开 头 部 分 的 XML 编码 形式 。 这 个 编码 
是 由 Jon Bosak 完成 的 ， 他 是 XML 标准 的 主要 创始 人 之 一 。 形 如 《name〉 的 标签 代表 一 个 
结构 化 元 素 的 开始 ， 形 如 《〈/name》 的 标签 代表 一 个 结构 化 元 素 的 结束 。 标 签 也 可 以 采用 其 
他 形式 ， 并 且 包 括 了 用 来 定义 包含 文本 特性 的 属性 ， 这 些 细节 留待 第 16 章 介绍 。 本 书 中 大 
量 的 例子 中 用 到 的 标签 都 是 类 似 于 这 幅 图 中 简单 的 标签 。 

如 果 按 XML 的 传统 意思 ， 这 种 编码 只 能 表示 出 文档 的 逻辑 结构 〈logical struc- 








ture) 演员 、 台 词 、( 戏 剧 ) 划 、 (戏剧 ) 场次 和 剧本 行 。 而 文档 的 物理 结构 (physical 
structure) 字体 、 加 粗 、 布 局 、 页 面 间隔 等 ， 直 到 这 一 页 被 显示 的 时 候 ， 目 标 显 示 媒 体 
才 需 要 知道 这 些 细节 。 


-遗憾 的 是 ， 许 多 文档 格式 对 逻辑 结构 和 物理 结构 并 未 保持 一 致 的 区 分 。 此 外 ， 某 些 格式 
妨碍 了 我 们 确定 文档 的 内 容 ， 或 是 作为 检索 请 求 的 结果 ， 我 们 不 能 返回 比 整个 文档 少 的 任何 
WA (换言之 ， 我 们 不 能 获得 文档 摘要 一 一 译 者 注 )。 这 种 格式 大 多 是 所 谓 的 二 进 制 格式 (bi- 
nary format) ， 因 为 它们 包含 了 内 部 指针 和 其 他 复杂 的 组 织 结构 ， 也 不 能 视 为 字符 流 来 处 理 。 
举 个 例子 来 说 ，PostScript 格式 的 文档 内 容 是 使 用 编程 语言 Forth 的 某 一 版 本 来 编码 
的 。 一 个 PostScript 文档 实质 上 就 是 一 个 可 执行 的 程序 ， 用 于 打印 或 显示 的 时 候 调整 文档 。 
尽管 使 用 编程 语言 来 编码 文档 能 够 获得 最 大 的 灵活 性 ， 但 是 却 使 得 建立 索引 所 需 的 文档 内 容 
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难以 获取 。PDF 格式 是 PostScript 的 进化 版 ， 虽 然 没 有 包含 一 种 完整 的 编程 语言 ， 但 是 仍 保 
持 许多 旧 格 式 的 灵活 性 和 复杂 性 。PostScript 和 POF 最 初 是 由 Adobe 公司 开发 的 ， 但 是 现在 都 
是 开放 的 标准 ， 可 以 使 用 许多 包括 开源 工具 在 内 的 第 三 方 工具 来 创建 和 操作 这 种 格式 的 文档 。 





<STAGEDIR>Thunder and lightning. Enter three Witches</STAGEDIR> 
<SPEECH> 

<SPEAKER>First Witch</SPEAKER> 

<LINE>When shall we three meet again</LINE> 
<LINE>In thunder, lightning, or in rain?</LINE> 
</SPEECH> 

<SPEECH> 

<SPEAKER>Second Witch</SPEAKER> 

<LINE>When the hurlyburly’s done,</LINE> 
<LINE>When the battle’s lost and won.</LINE> 
</SPEECH> 


<SPEECH> 

<SPEAKER>Third Witch</SPEAKER> 

<LINE>That will be ere the set of sun.</LINE> 
</SPEECH> 


<SPEECH> 
<SPEAKER>First Witch</SPEAKER> 
<LINE>Where the place?</LINE> 
</SPEECH> 
<SPEECH> 
<SPEAKER>Second Witch</SPEAKER> 
<LINE>Upon the heath.</LINE> 
</SPEECH> 
<SPEECH> 
<SPEAKER>Third Witch</SPEAKER> 
<LINE>There to meet with Macbeth.</LINE> 
</SPEECH> 








图 1-3 莎士比亚 文集 《IMacbeth》 部 分 剧本 的 XML 编码 


许多 转换 工具 可 以 从 PostScript 和 PDF 文档 中 抽取 内 容 ， 对 它们 进行 压缩 并 形成 索引 。 
每 一 个 这 样 的 转换 工具 都 使 用 启发 式 方法 分 析 文档 并 推测 文档 内 容 。 尽 管 使 用 标准 工具 能 为 
文档 生成 很 好 的 输出 ， 但 当面 对 一 些 不 寻常 来 源 的 文档 时 ， 效 果 可 能 并 不 好 。 一 种 极端 的 情 
况 就 是 ， 有 可 能 要 将 整个 文档 放 人 内 部 缓冲 区 ， 然 后 使 用 模式 匹配 算法 去 识别 字符 和 词 。 

另外 ， 即 便 为 PostScript 和 PDF 文档 确立 最 简单 的 逻辑 结构 ， 这 也 将 是 一 个 很 大 的 挑 
战 。 甚 至 一 个 文档 的 标题 也 要 通过 字体 、 大 小 、 文 档 中 的 位 置 以 及 其 他 物理 结构 上 的 特征 才 
能 确立 。 对 于 PostScript 文档 ， 因 为 执行 单个 页 面 的 程序 将 会 影响 到 后 面 的 页 面 ， 所 以 抽取 
单个 页 面 的 内 容 也 可 能 会 有 问题 。PostSceript 的 这 个 特点 使 得 信息 检索 系统 无 法 从 一 个 很 大 
的 PostScript 文档 中 仅 返 回 几 个 页 面 作为 检索 结果 ， 例如， 无 法 从 一 个 很 长 的 技术 手册 中 返 
回 一 个 简单 章节 作为 结果 。 

其 他 文档 格式 是 专用 的 ， 也 就 是 说 ， 它 们 只 能 与 某 个 软件 制造 商 的 产品 关联 起 来 。 这 些 
专 有 格式 包括 微软 的 “doc” 格 式 。 直 到 最 近 ， 由 于 微软 Office 在 市 场 上 的 主导 地 位 ， 这 种 
格式 才 广 泛 用 于 文档 交换 和 协作 。 尽 管 这 种 专 有 格式 的 技术 说 明 通常 是 可 以 获取 的 ， 但 是 它 
们 很 复杂 ， 而 且 可 能 随 着 版 本 更 新 不 断 修改 ， 而 这 一 切 完 全 是 由 制造 商 决定 的 。 微 软 以 及 其 
他 制造 商 现 在 都 把 注意 力 转向 到 基于 XML 的 格式 (例如 OpenDocument 格式 或 者 微软 的 
OOXML) ， 制 造 商 的 这 种 转变 也 许 能 降低 对 文档 建立 索引 的 复杂 度 。 
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KRE, HTML 可 能 也 会 有 二 进 制 格式 的 那些 问题 许多 HTML 页 面 中 包含 
JavaScript 脚 本 或 者 Flash 编程 语言 。 这 些 脚 本 可 能 会 重 写 整个 网 页 的 内 容 ， 在 屏幕 上 显示 
任意 内 容 。 对 于 那些 由 脚本 产生 内 容 的 网 页 ， 实 际 上 Web 疏 虫 和 搜索 引擎 很 难 抽取 和 索引 
其 有 意义 的 内 容 。 


1.3.2 ”英文 文本 中 的 分 词 


无 论文 档 的 格式 如 何 ， 为 了 构建 用 于 检索 查询 请 求 的 倒 排 索引 ， 每 一 个 文档 都 必须 先 转 
化 为 一 个 词 条 (token) 序列 。 对 于 英文 文档 ， 一 个 词 条 通常 对 应 于 一 个 字母 数字 组 成 的 字 
符 (A~ZMO~9) 序列 ， 也 可 能 是 编码 结构 信息 ， 例 如 XML 中 的 标签 ， 或 者 文档 的 其 他 
特征 信息 。 分 词 是 索引 过 程 中 关键 的 一 步 ， 因 为 它 有 效 限 制 了 系统 能 够 处 理 的 查询 类 别 。 

作为 分 词 之 前 的 预 处 理 步骤 ， 二 进 制 格式 的 文档 要 被 转换 为 原始 文本 Craw text) 一 一 
字符 流 。 这 个 转换 过 程 一 般 是 将 字体 信息 以 及 其 他 更 低层 的 物理 格式 信息 丢弃 ， 但 通过 向 原 
始 文本 中 重新 插入 适当 的 标签 来 保留 更 高 层 的 逻辑 格式 。 高 层次 的 格式 可 能 包括 标题 、 段 落 
边界 以 及 其 他 类 似 的 元 素 。XML 或 HTML 文档 不 需要 这 个 预 处 理 步 骤 ， 因 为 它们 已 经 包 
含 了 建立 索引 所 需 的 词 条 ， 从 而 大 大 减少 了 处 理 成 本 。 从 本 质 上 来 讲 ， 这 些 格式 的 文档 本 来 
就 是 原始 文本 。 

对 于 英文 文档 ， 原 始 文 本 中 的 字符 被 编码 为 ? 位 ASCI 值 。 然 而 对 于 其 他 语言 ，ASCII 
编码 方式 变 得 不 适用 。 对 于 这 些 语 言 ， 每 个 字符 不 能 被 编码 为 单独 的 一 个 字 节 ， 因 此 必须 使 
用 其 他 的 编码 方式 。 由 Unicode 表示 的 UTF-8 是 一 种 解决 这 些 语言 编码 问题 的 流行 的 方法 
( 见 3. 2 节 ) 。 对 于 生活 中 使 用 到 的 大 多 数 语言 ， 甚 至 许多 已 经 灭绝 的 语言 ， 例 如 腓 尼 基 语 
(Phoenician) 和 苏 美 尔 (Sumerian) 的 枫 形 文字 ，UTF-8 也 能 够 为 这 些 语言 的 每 个 字符 提 
供 1~4 字 节 的 编码 。UTF-8 能 够 向 后 兼容 ASCII， 所 以 ASCI 编码 的 文本 顺 其 自然 地 也 是 
UTF-8 的 文本 。 

对 图 1-3 的 XML 文档 进行 分 词 ， 每 一 个 XML 标签 和 连续 字符 串 都 被 视 为 词 条 。 为 了 
简化 匹配 过 程 ， 我 们 将 标签 外 的 大 写字 母 转换 为 小 写 ，“FIRST”、“first” 和 “First” 将 被 
同等 对 待 。 分 词 的 结果 如 图 1-4 所 示 。 每 一 个 词 条 旁边 用 一 个 数字 来 指示 这 个 词 在 莎士比亚 
37 部 戏剧 集中 出 现 的 位 置 ， 这 个 位 置 从 戏剧 《Antony and Cleopatra》 开 始 计 算 ， 从 1 开 
台 ， 以 《The Winter's Tale》 结 束 ， 位 置 为 1 271 504。 这 个 简单 的 分 词 方法 在 余下 的 第 1 章 
和 第 2 章 部 分 对 于 我 们 要 介绍 的 内 容 已 经 足够 了 ， 在 必要 的 时 候 我 们 就 假定 使 用 这 样 的 分 词 
方法 。 在 第 3 章 中 ， 将 会 重新 检视 对 英文 以 及 其 他 语言 进行 分 词 的 方法 。 

文本 集中 不 同 词 条 或 者 符号 (symbol) 的 集合 被 称 为 词汇 表 (vocabulary), AV RR 
示 。 莎 士 比 亚 文集 的 词汇 表 中 共有 1V | 二 22 987 个 不 同 的 符号 。 

Y={a, aaron, abaissiez, .…, Zounds, zwaggered, =, <PLAY>, ©, <SPEAKER>, =, </PLAY>, …} 

在 莎士比亚 文集 中 ， 我 们 将 任何 连续 的 字母 数字 串 视 为 一 个 词 ， 则 词汇 表 共 包含 22 943 
个 词 和 44 个 标签 。 本 书 将 词汇 表 中 的 符号 视 为 “ 词 项 ”， 因 为 它们 构成 了 与 查询 中 词 项 还 本 
的 基础 。 另 外 ， 我 们 将 一 个 词 条 视 为 是 一 个 词 项 的 一 次 “出 现 ”。 虽 然 这 种 用 法 有 助 于 加 强 
文档 词 条 与 查询 词 项 的 联系 ， 但 它 可 能 会 掩盖 符号 和 词 条 之 间 的 关键 区 别 。 符 号 是 抽象 的 ， 
词 条 是 抽象 的 实例 化 。 在 哲学 上 ， 这 种 差别 称 为 “型 值 之 差 ” (type-token distinction) 。 在 
面向 对 象 编程 中 ， 就 如 同类 和 对 象 之 间 的 区 别 。 
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745396 745397 745398 745399 745400 
<STAGEDIR> thunder and lightning enter 
745401 745402 745403 745404 745405 
three vitches </STAGEDIR> <SPEECH> <SPEAKER> 
745406 745407 745408 745409 745410 
first witch </SPEAKER> <LINE> when 
745411 745412 745413 745414 745415 
shall we three meet again 
745416 745417 745418 745419 745420 
</LINE> <LINE> in thunder lightning 
745421 745422 745423 745424 745425 
or in rain </LINE> </SPEECH> 
745426 745427 745428 745429 745430 
<SPEECH> <SPEAKER> second. witch </SPEAKER> 





图 1-4 莎士比亚 文集 的 《Macbeth》 部 分 剧本 的 分 词 结果 


表 1-1 莎士比亚 文集 Boask 版 XML 格式 文档 中 出 现 最 频繁 的 20 个 词 














排名 频率 词 条 | 排名 频率 词 条 
1 107 833 (LINE) 11 17 523 of 
2 107 833 (/LINE) 12 14 914 a 
3 31 081 (SPEAKER) 13 14 088 you 
4 31 081 (/SPEAKER) 14 12 287 my 
5 31 028 (SPEECH) 15 11 192 that 
6 31 028 (/SPEECH) 16 11 106 in 
7 28 317 the 17 9344 is 
8 26 022 and 18 8506 not 
9 22 639 i 19 7799 it 

10 19 898 7753 








1.3.3 WASH 


表 1-1 中 列举 了 莎士比亚 戏剧 集 XML 格式 文档 中 出 现 最 频繁 的 20 个 词 。 在 这 些 词 项 
中 ， 排 在 前 六 的 是 标记 剧本 行 、 演 员 和 台词 的 标签 。 至 于 一 般 的 英文 文本 , “the” 是 最 频繁 
出 现 的 词 ， 其 次 是 很 多 的 代词 、 介 词 和 其 他 功能 词 。 超 过 三 分 之 一 〈8336) 的 词 项 ， 例如， 
“abaissiez” 和 “zwaggered”， 仅 出 现 过 一 次 。 
标签 出 现 的 频率 是 由 文档 集 本 身 的 结构 约束 所 决定 的 。 每 一 个 开始 标签 ame) 都 会 
对 应 一 个 结束 标签 〈/name 。 每 一 部 戏剧 恰好 有 一 个 戏剧 名 。 每 一 名 台词 至 少 对 应 一 个 演 
OBR, 但 当 一 组 角色 齐 声 发 言 的 时 候 ， 也 有 少数 台词 是 对 应 多 个 演员 的 。 平 均 而 言 ， 每 一 行 台 
词 平 均 有 8 或 9 个 词 。 
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虽然 在 不 同 的 文档 集中 ， 标 签 的 类 型 和 相对 频率 不 一 样 ， 但 是 英语 文本 中 词 的 相对 频率 
通常 遵循 一 个 统一 的 模式 。 不 考虑 标签 ， 图 1-5 描绘 出 了 莎士比亚 文集 中 词 项 的 频率 排名 。 
x RHA y 轴 都 是 对 数 坐标 。 图 中 的 点 基本 上 落 在 斜率 为 一 1 的 直线 上 ， 除 了 最 频繁 的 词 和 最 
不 频繁 的 词 落 在 该 直线 下 方 。 在 这 个 图 中 ， 对 应 “the” 的 点 出 现在 最 左上 角 ， 对 应 “zwag- 
gered” 这 样 只 出 现 一 次 的 词 的 点 都 出 现在 最 右 下 角 。 


频率 (对 数 坐 标 ) 





1 10 102 10° 10* 108 
排名 (对 数 坐 标 } 


图 1-5 莎士比亚 文集 词 频 的 排名 顺序 。 虚 线 符合 a 二 1 的 齐 夫 定律 


这 条 反映 词 频 与 排名 关系 的 直线 被 称 为 齐 夫 定 律 〈Zipf's law)， 语 言 学 家 George Zipf 
在 20 HE 30 年 代 发 现 了 这 个 关系 ,并且 用 它 来 模拟 在 社会 科学 一 些 领 域内 数据 的 相对 频率 
(Zipf，1949)。 数 学 上 ， 这 种 关系 可 以 表示 为 : 
log(frequency)= C — a- log(rank) (1-1) 
或 等 价 于 


1 
Fira (1-2) 


ja 
其 中 ， 万 是 指 第 ;个 频繁 词 的 词 频 。 对 于 不 同 的 英文 文本 ，c 取 值 各 有 不 同 ， 但 通常 都 逼近 
1。 齐 夫 定律 也 适用 于 其 他 自然 语言 以 及 其 他 类 型 数据 的 相对 词 频 。 在 第 4 章 中 ， 这 个 定律 
促成 了 使 用 某 种 数据 结构 来 索引 自然 语言 文本 的 想法 。 在 第 15 章 中 ， 我们 使 用 齐 夫 定 律 来 
对 搜索 引擎 查询 的 相对 频率 建 模 。 


13.4 语言 模型 


莎士比亚 戏剧 集 的 Bosak 版 本 XML 中 ， 除 去 标签 共有 912 052 个 词 条 (但 包含 了 一 些 
原版 没有 的 雇 页 )。 如 果 随 机 地 从 里 面 选 出 一 个 词 条 ， 选 到 “the” 的 概率 是 28 317/912 052% 
3. 1%， 选 到 “zwaggered” 的 概率 为 1/912 0520.000 11%。 现 在 ， 假 设 发 现 了 一 个 先前 
不 为 人 知 的 莎士比亚 戏剧 。 能 否 从 已 经 知道 的 剧本 来 猜测 这 个 剧本 的 内 容 ? 在 进行 这 些 猜 测 
之 前 ， 我 们 先 重 新 定义 不 包含 标签 的 词汇 表 ” 。 因 为 一 个 没 被 发 现 过 的 莎士比亚 的 剧本 不 太 
可 能 已 经 进行 了 XML 编码 (至 少 在 第 一 次 发 现 的 时 候 是 这 样 )。 

关于 未 知 文本 的 内 容 预 测 ， 可 以 使 用 一 种 特殊 类 型 的 概率 分 布 方法 ， 称 为 语言 模型 
(language model) 。 最 简单 的 语言 模型 就 是 一 个 在 词汇 表 中 的 符号 的 固定 的 概率 分 布 AM(o): 
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2 Mo) = 1 (1:3) 
CEV 
一 个 语言 模型 常 基于 已 知 文本 来 建立 。 例 如 ， 可 做 如 下 定义 : 
M(o)= frequency (co) (1-4) 


HH, frequency) 是 词 项 在 莎士比亚 文集 中 出 现 的 次 数 。 我 们 有 ，AtC the”)~3.1%, 
M(“zwaggered”) = 0.000 11%, 
如 果 随 机 地 从 莎士比亚 已 知 的 戏剧 中 抽 一 个 词 条 ， 抽 到 词 项 o 的 可 能 为 M(o)。 基 于 这 
个 认识 ， 从 这 个 未 知 的 戏剧 中 随机 抽取 一 个 词 条 ， 我 们 也 假设 抽 到 o 的 可 能 为 M(o) 如 果 开 
始 阅读 这 个 未 知 的 戏剧 ， 我 们 可 以 使 用 语言 模型 来 预测 文本 中 的 下 一 个 词 项 ， 即 下 一 个 词 项 
Eo 的 可 能 为 M(o)。 在 这 个 简单 的 语言 模型 中 ， 我 们 分 开 考 虑 每 个 词 项 。 该 语言 模型 对 第 
一 个 词 项 、 下 一 个 词 项 、 下 下 个 词 项 都 使 用 相同 的 独立 预测 ， 依 此 类 推 。 基 于 此 语言 模型 ， 
以 下 六 个 词 项 “to be or not to be” 出 现 的 概率 是 ， 
2.18% X0. 76% X0. 27% X0. 93% X2. 18% X0. 76% =0. 000 000 000 069% 
公式 (1-4) 被 称 为 是 这 类 简单 语言 模型 的 最 大 似 然 估计 (Maximum Likelihood Estimate, 
MLE) 。 一 般 来 说 ， 给 定 一 个 数据 集 ， 最 大 似 然 是 估算 一 个 概率 分 布 中 未 知 参数 的 标准 方 
法 。 这 里 ， 一 个 参数 对 应 一 个 词 项 一 一 代表 了 在 未 知 文本 中 接 下 来 会 出 现 这 个 词 项 的 概率 。 
可 以 粗略 地 说 ， 最 大 似 然 估 计 是 使 得 数据 集 最 像 〈 给 定数 据 集 一 一 译 者 注 ) 的 参数 值 。 在 这 
种 情况 下 ， 莎 士 比 亚 文集 就 是 必需 的 数据 集 。 公 式 (1-4) 就 是 使 未 知 文本 最 像 是 莎士比亚 
作品 的 参数 概率 。 假 定 未 知 文本 与 当前 文本 相似 ， 则 最 大 似 然 模型 提供 了 一 个 预测 文本 内 容 
的 好 起 点 。 
语言 模型 可 以 用 于 量化 一 个 新 的 文本 片段 与 已 知 文本 集 的 相似 程度 。 假 定 现 在 分 别 有 表 
. 征 忒 士 比 亚 作 品 和 表征 英国 剧 作 家 John Webster 作品 的 语言 模型 。 对 于 一 个 先前 未 知 的 刚 
发 现 的 新 戏剧 ， 专 家 们 争论 谁 可 能 是 它 的 作者 。 假 定 上 述 两 个 语言 模型 能 够 捕 提 两 位 作家 的 
显著 特点 ， 例 如 他 们 各 自 更 喜欢 的 词汇 ， 那 么 就 可 以 应 用 这 两 个 语言 模型 来 计算 这 个 新 戏剧 
的 属 向 概率 。 概 率 高 的 模型 就 指示 了 这 个 新 文本 的 作者 。 
然而 ， 语 言 模 型 并 非 一 定 得 使 用 最 大 似 然 估 计 。 词 项 构成 的 词汇 表 上 的 任何 概率 分 布 都 
可 视 为 是 一 个 语言 模型 ， 例 如 ， 考 虑 以 下 概率 分 布 ， 
M(“to”) = 0.40 M(“be”) = 0.30 M(“or”) = 0.20 M(“not”) = 0.10 
基于 这 个 分 布 ， 以 下 六 个 词 “to be or not to be” 出 现 的 概率 是 ， 
0. 40X0. 30X0. 20X0. 10X0. 40X0. 30=0. 029% 
同 理 ， 基 于 这 个 模型 ， 以 下 六 个 词 “the lady doth protest too much” 出 现 的 概率 为 0。 
实际 上 ， 未 知 文本 中 可 能 含有 未 知 的 词 。 兼 顾 考 虑 到 这 些 未 知 的 词 ， 可 通过 在 词汇 表 中 
增加 一 项 “UNKNOWN” 来 代表 “词汇 表 外 ” Cout-of-vocabulary) 的 词 项 。 





V'=VU {UNKNOWN} (1-5) 
相应 的 扩展 语言 模型 人 Af(o) 将 为 “UNKNOWN” 赋 予 一 个 正 的 概率 值 : 
M' (UNKNOWN) = 8 (1-6) 


其 中 ，0 委 8 委 1。8 值 代表 的 是 在 W 模 型 中 下 一 个 词 项 不 出 现在 当前 文档 集中 的 概率 。 对 于 
其 他 的 词 项 ， 作 如 下 定义 ， 
M'(c)=M(a) - (1 - 8) (1-7) 
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其 中 ，M(o) 是 最 大 似 然 语 言 模型 。8 值 取决 于 现 有 文档 特征 。 例 如 ，B 可 能 是 已 知 文本 中 某 
个 词 项 出 现 概率 的 一 半 : 
1 

Fy frequency) (1-8) 
幸运 的 是 ， 词 汇 表 外 的 词 项 通常 不 会 成 为 信息 检索 系统 的 一 个 问题 ， 因 为 文集 完整 的 词汇 表 
是 在 建立 索引 的 时 候 确 定 的 。 

索引 和 文档 压缩 CGE 6 章 ) 是 语言 模型 应 用 的 另外 的 两 个 重要 领域 。 当 使 用 到 压缩 算 
法 ,词汇 表 中 的 词 项 通常 是 单个 字符 或 字 节 ， 而 不 是 整个 词 的 形式 。 语 言 模型 当 被 转换 为 压 
缩 形式 后 ， 通 常 也 称 为 压缩 模型 (compression model) ， 这 个 术语 在 文献 中 很 常见 。 其 实 ， 
压缩 模型 只 是 语言 模型 的 特殊 化 。 在 第 10 章 中 ， 压 缩 模型 将 被 运用 于 检测 垃圾 邮件 以 及 其 
他 一 些 过 滤 问题 。 

语言 模型 可 以 用 来 生成 文本 以 及 预测 未 知 的 文本 。 例 如 ， 基 于 概率 分 布 M(o) 可 以 随机 
地 产生 一 些 词 项 序列 ， 从 而 生成 一 个 “随机 莎士比亚 作品 ”， 


strong die hat circumstance in one eyes odious love to our the wrong wailful would 


B=05- 


all sir you to babies a in in of er immediate slew let on see worthy all timon nourish 
both my how antonio silius my live words our my ford scape 
1. 高 阶 模型 
上 述 随 机 文本 读 起 来 不 像 是 莎士比亚 的 作品 ， 倒 更 像 是 不 出 名 的 作家 写 的 。 由 于 每 个 词 
项 都 是 单独 产生 的 ， 因 此 生成 “our” 之 后 生成 “the” 的 概率 仍然 是 3. 1% 。 但 是 在 实际 的 
英文 文章 中 ， 所 有 格 形容 词 “our” 后 面 几乎 都 是 跟 一 个 常见 名 词 。 尽 管 词组 “our the” 包 
含 的 是 两 个 频繁 出 现 的 词 ， 但 是 这 样 的 词组 很 少 出 现在 英文 文章 中 ， 落 士 比 亚 文集 中 也 从 未 
HR. 
高 阶 语言 模型 结合 具体 的 上 下 文 背 景 。 一 阶 〈first-order) 语言 模型 由 条 件 概率 组 成 ， 
后 一 个 符号 出 现 的 概率 由 前 一 个 符号 来 决定 ， 例 如 : 
frequency(o102) 
Milola) = Dw ev frequency(o10") 
词 项 的 一 阶 语言 模型 等 价 于 使 用 相同 技术 估计 的 二 元 (bigrams) 零 阶 模型 〈 例 如 MLE): 
_ Mo(o102) 
Milo |o) = Tay Moloi’) 《1-10) 
更 一 般 地 ， 每 个 n 阶 语言 模型 都 可 以 用 一 个 〈% 十 1》 元 零 阶 模型 来 表示 : 


Mo(o1...0n 
Mnr(On41|01---On) = 二 ae CRS 


(1-9) 


(1-11) 


举 个 例子 ， 考 虑 莎士比亚 文集 中 的 词组 “first witch”。 这 个 词组 共 出 现 23 次 ， 而 
“first” 共 出 现 1349 次 。 根 据 最 大 似 然 二 元 模型 ， 可 以 得 到 以 下 概率 : 
Mo( “first witch”) = sage. 5% 
(注意 分 母 是 912 051 而 不 是 912 052， 因 为 二 元 数 比 词 条 数 要 少 一 个 )。 在 一 阶 模型 中 对 应 
的 概率 为 : 
Mi (“witeh” | “first”) = aa 1.7% 


使 用 公式 (1-9) 和 《1-10) ， 不 考虑 词 条 数 和 二 元 数 的 区 别 ，“our the” 的 最 大 似 然 估 计 
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值 为 : 

Mo(“our the” )= Mo(“our”) -M,(“the” | “our”) =0% 
正如 我 们 期 望 的 那样 ， 这 个 概率 值 为 0， 因为 这 个 词组 从 未 在 文章 中 出 现 。 遗 憾 的 是 ， 这 个 
模型 对 于 很 多 没有 出 现在 莎士比亚 文集 中 的 、 但 合理 的 二 元 词组 ， 也 会 赋予 0 概率 ， 例 如 
“fourth witch”。 由 于 在 莎士比亚 文集 中 “fourth” 出 现 了 55 K, “witch” HET 92 次 ,可 
以 想象 在 未 知 戏 剧 中 也 有 可 能 包含 这 个 二 元 词组 。 此 外 ， 我 们 也 应 为 例如 “our the” 这 样 
的 二 元 词组 赋予 一 个 比较 小 的 正 概率 ， 以 适应 那些 不 常见 的 用 法 ， 包 括 古 老 的 拼写 和 重音 。 
举 个 例子 ，《The Merry Wives of Windsor》 中 包含 了 大 量 显然 训 无 意义 的 二 元 词组 “a 
the”， 这 是 法 国医 生 Caius 的 台词 “If dere be one or two, I shall make-a the turd. ”。 一旦 看 
到 了 更 多 的 上 下 文 ， 词 组 的 意义 就 变 得 清晰 了 。 

2. 平滑 
解决 上 述 问题 的 一 个 方法 是 使 用 对 应 的 零 阶 模型 At 来 平滑 (smooth) 一 阶 模型 Ati 。 
平滑 处 理 之 后 的 模型 Mi 是 Mo 和 Mi 的 线性 组 合 : 
Mi(o2|01)=7: Mi(o2|01) + (1 一 7) Molo) (1-12) 
同样 地 ， | 

Molaia) =: Mo(a102) + (1 —7): Molar) : Mo(o2) (1-13) 
Ep, 是 平滑 参数 (0 这 7 三 1)。 例 如 ,使 用 最 大 似 然 估计 上 且 设 y=0.5, A: 

Mi (“first witch”) = y Mo( “first witch”) + (1 — y) : Mo( “first”) . Mo( “witch”) 
1349 92 


一 05 ` 912 052 912 052 


+0.5 = 0.001 3% 


912 051 
和 
o( “fourth witch”)=~y -Mo(“fourth witch”) + (1 — y)- Mo(“fourth”) - Mo(“witch”) 

0 55 92 
912 051 + 0.5- 912052 912 052 œ 0.000 000 30% 
一 阶 模型 可 以 用 零 阶 模型 来 平滑 化 ， 二 阶 模型 可 以 用 一 阶 模型 来 平滑 ， 依 次 类 推 。 显 然 ， 对 
于 零 阶 模型 ， 这 样 的 方法 不 适用 。 然 而 ， 我 们 可 以 采用 与 “词汇 表 外 的 词 项 ”相同 的 方法 
(公式 〈1-5)) 。 一 般 地 〈 也 比较 常见 ) ， 对 于 小 型 文集 9S， 可 以 使 用 从 大 型 文集 L 中 建立 的 
零 阶 模型 Ms,o 来 进行 平滑 : 


=0.5- 


Mso=7Y: Msot(l—7Y): Mro (1-14) 

He, L 是 任意 的 〈 但 大 型 ) 的 英文 文集 。 

3. 马尔 可 夫 模型 

图 1-6 描述 了 另 一 种 描述 词 项 分 布 的 重要 
方法 ， 马 尔 可 夫 模 型 (Markov model), BAR 
可 夫 模 型 本 质 上 是 一 个 具有 转移 概率 的 增强 型 “be70.60 “be”/0.30 
有 限 自动 机 。 当 用 于 表达 语言 模型 时 ， 每 一 个 
转移 都 由 一 个 词 项 和 一 个 概率 标识 。 通 过 这 些 
转移 关系 ， 可 以 预测 词 项 或 产生 词 项 。 例 如 从 
状态 1 出 发 ， 沿 着 状态 序列 12> 3>4> 1 > 
2->3， 可 以 得 到 “to be or not to be” 这 个 字 “or”/0.20 
串 ， 并 得 到 对 应 的 概率 : 图 1-6 马尔 可 夫 模 型 


“to"/0.40 


“not”/0.70 





“not”/0.10 “not”/0.80 
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0. 40X0. 30X0. 20X0. 10X0. 40x0. 30 = 0.029% 
没有 转移 〈 例 如 状态 1 和 状态 4 之 间 ) 相当 于 转移 概率 为 0。 因 为 这 样 的 转移 不 会 发 生 ， 因 
此 无 需 将 其 与 某 个 词 项 关联 。 为 简单 起 见 ， 假 定 两 个 状态 之 间 最 多 只 存在 一 个 转移 。 这 种 假 
定 不 会 丢掉 任何 信息 。 任 何 一 个 在 相同 的 状态 对 中 存在 多 个 转移 的 马尔 可 夫 模 型 ， 都 会 有 一 
个 在 两 个 状态 中 不 存在 多 个 转移 的 马尔 可 夫 模 型 与 之 对 应 〈 见 练习 1.7). 

由 马尔 可 夫 模 型 预测 的 概率 依赖 于 初始 状态 。 如 果 从 状态 4 开始， 产生 “to be or not 
to be” 的 概率 为 : 

0. 90X0. 30X0. 20X0. 10X0. 40X0. 30 一 0. 065% 

第 10 章 会 介绍 到 用 于 过 滤 的 文档 压缩 模型 的 基础 就 是 马尔 可 去 模型 。 

n 个 状态 的 马尔 可 夫 模 型 可 用 nn Xn 的 转移 矩阵 (transition matrix) M 来 表示 ， 其 中 
Milli EMR i 转移 到 状态 j 的 概率 。 图 1-6 的 马尔 可 夫 模 型 的 转移 和 矩阵 如 下 : 


0.00 0.40 0.00 0.60 
0.70 0.00 0.30 0.00 

M = (1-15) 
0.00 0.80 -0.00 0.20 


0.10 0.90 0.00 0.00 


ERS PARAM LO.LRIA. MPD 1. RAH nX na E 
阵 被 称 为 随机 矩阵 (stochastic matrix), 

给 定 一 个 转移 矩阵 ， 通 过 将 这 个 转移 矩阵 乘 以 一 个 表征 当前 状态 的 状态 向 量 (state 
vector) 可 以 得 出 这 个 转移 的 结果 。 例 如 ， 可 以 用 向 量 〈1000) 来 表示 初始 状态 1。 这 步 之 
E. RIA: 


0.00 0.40 0.00 0.60 
(1 0 0 o) 0.70 0.00 0.30 0.00 
0.00 0.80 0.00 0.20 
0.10 0.90 0.00 0.00 


也 就 是 说 ， 上 一 步 后 ， 正 如 期 望 的 那样 ， 进 入 状态 2 的 概率 为 0. 40， 进 人 状态 4 的 概率 为 
0. 60。 再 乘 一 次 ， 可 以 得 到 ， 


= ( 0.00 0.40 0.00 0.60 ) 


0.00 0.40 0.00 0.60 
0.70 0.00 0.30 0.00 
0.00 0.80 0.00 0.20 
0.10 0.90 0.00 0.00 


这 个 计算 结果 告诉 我 们 ， 两 步 之 后 进入 状态 2 的 概率 为 0. 54。 一 般 地 ， 状 态 向 量 是 各 元 素 
之 和 为 1 的 任何 的 n 维 向 量 。 将 状态 向 量 乘 以 转移 矩阵 k 次 ， 即 可 得 出 步 之 后 ， 进 入 每 
一 个 状态 的 概率 。 

一 个 随机 和 失 阵 和 一 个 初始 状态 向 量 就 构成 了 马尔 可 夫 链 《Markov chain), 第 15 章 中 会 
介绍 到 马尔 可 夫 链 可 用 于 Web 链接 分 析 算 法 的 表达 。 马 尔 可 夫 链 作为 马尔 可 夫 模 型 的 
延伸 一 一 是 以 俄罗斯 统计 学 家 安 德 烈 马尔 可 夫 (Andrey Markov, 1856—1922) 的 名 字 命 
名 的 ， 他 提出 并 证 明了 很 多 马尔 可 夫 链 的 性 质 。 


(0.00 0.40 0.00 0.60 ) =( 0.34 0.54 0.12 0.00 ) 
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1.4 测试 集 


尽管 戏剧 《Macbeth》 以 及 莎士比亚 的 其 他 戏剧 都 为 解释 简单 的 信息 检索 概念 提供 了 绝 
好 的 范例 ， 但 为 了 评价 的 目的 ,研究 者 人 员 开 发 了 更 多 的 测试 集 。 许 多 测试 集 都 是 作为 
TRECS (Text REtrieval Conference， 文 本 检索 会 议 ) 的 一 部 分 被 创建 的 ， 这 是 由 美国 标准 
与 技术 研究 所 (National Institute of Standards and Technology, NIST) 从 1991 年 以 来 每 
年 都 会 进行 的 一 系列 实验 评价 结果 。TREC 为 研究 者 们 提供 了 一 个 论坛 ， 供 他 们 在 广泛 的 问 
题 上 测试 自己 的 信息 检索 系统 。 例 如 ， 来 自学 术 界 、 工 业界 和 政府 的 超过 100 个 组 织 参加 了 
TREC 2007, 

通常 ，TREC 实验 由 6 一 ?7 个 不 同 的 专题 (track) 组 成 ， 每 个 专题 关注 信息 检索 的 一 个 
不 同 领域 。 近 几 年 ，TREC 专题 涵盖 了 企业 搜索 、 基 因 信 息 检 索 、 法 律 发 现 、 垃 圾 邮件 过 滤 
和 博客 搜索 。 每 个 专题 又 分 成 若 于 任务 ， 测 试 这 个 领域 的 不 同方 面 。 例 如 ，TREC 2007 的 
企业 搜索 专题 就 包括 了 在 给 定 主 题 上 的 电子 邮件 讨论 搜索 任务 和 专家 发 现任 务 。 每 个 专题 通 
常会 持续 三 年 或 更 长 时 间 。 i 

TREC 为 信息 检索 研究 人 员 至少 做 出 了 两 个 重要 贡献 。 第 一 ， 它 向 研究 者 提供 了 一 个 平 
台 ， 供 他 们 在 相同 问题 、 相 同 数据 上 展示 和 讨论 他 们 的 工作 ， 并 进行 不 同系 统 间 的 直接 比 
较 ， 谁 优 谁 劣 一 目 了 然 。 作 为 结果 ， 往 往 在 引进 TREC 的 某 个 专题 之 后 ， 都 能 够 看 到 显著 
的 进步 和 性 能 提升 。 第 二 ，TREC 致力 于 创建 可 重用 〈reusable) 的 测试 集 ， 不 仅 可 供 会 议 
参与 者 验证 他 们 的 改进 工作 ， 未 参加 会 议 者 也 可 用 此 来 评价 自己 的 工作 。 另 外 ，TREC 自 成 
立 以 来 ， 就 为 全 世界 许多 类 似 的 实验 性 能 评估 提供 了 灵感 。 其 中 包括 了 欧洲 的 INEX 侧重 
XML #2, CLEF 侧重 跨 语言 信息 检索 ， 日 本 的 NTCIR 侧重 亚洲 语言 信息 检索 ， 还 有 印度 
的 FIRE 等 。 

TREC 任务 

基本 搜索 任务 一 一 即 系统 根据 先前 未 知 的 主题 从 静态 文本 集中 返回 一 个 排名 列表 一 一 在 
TREC 专业 的 词汇 中 ， 这 个 任务 被 称 做 “特别 检索 ”( 特 定 ) 任务 。 除 了 一 组 文档 集 ， 特 定 
任务 的 测试 集 还 包括 主题 集 (查询 从 中 产生 )， 以 及 一 个 相关 性 判断 集 〈 分 别称 为 “qrel 
files” 或 “grels”)， 指 示 了 文档 是 否 和 每 个 主题 相关 。 纵 观 TREC 历史 ， 特 定 任务 已 经 成 
为 了 不 同 研究 议题 的 一 部 分 ， 比 如 Web 检索 或 基因 信息 检索 。 尽 管 议题 不 同 ， 特 定 任务 
的 组 织 和 实施 在 不 同 的 专题 里 基本 是 相似 的 ， 这 点 从 TREC 最 开始 出 现 的 时 候 就 没 太 大 
变化 。 

较 早 的 TREC (2000 年 前 ) 中， 特定 任务 的 文档 集 来 源 于 发 给 TREC 参 会 者 的 5 张 CD 
中 的 160 万 个 文档 。 包 括 了 报纸 和 从 出 版 物 中 选 出 来 的 通讯 等 ,来源 如 华尔街 日 报 (Wall 
Street Journal) 、 洛 杉 矶 时 报 (LA Times)， 还 有 由 美国 联邦 政府 公布 的 文档 如 联邦 登记 册 
(Federal Register) 、 美 国 国会 记录 (Congressional Record) 等 。 这 些 文档 大 多 是 由 专业 人 
士 抽 写 和 编辑 ， 报 告 事 实 或 描述 事件 。 

图 1-7 TREC 第 五 张 CD 一 篇 文档 的 简短 摘录 。 这 篇 文档 是 1990 年 5 月 19 日 洛杉矶 
时 报 上 的 一 篇 新 闻 报 道 。 为 了 便于 TREC 实验 ， 这 篇 文章 被 编码 为 XML 格式 。 尽 管 各 
TREC 集 标签 的 规则 不 一 样 ， 但 是 在 这 里 ， 所 有 的 TREC 文档 都 采用 相同 的 标签 来 定义 文 
档 之 间 的 边界 和 文档 标识 符 。 每 一 个 TREC 文 档 由 标签 “DOC》…《/DOC》 包围 ，(DOCNO》… 
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(/DOCNO) 标记 一 个 唯一 的 文档 。 在 进行 相关 性 判定 时 ， 在 qrels 文档 集中 还 需要 用 到 这 
个 标识 符 。 这 个 规定 简化 了 索引 过 程 ， 并 且 使 得 集合 能 够 比较 容易 地 合并 。 很 多 信息 检索 系 
统 为 满足 这 个 规定 的 文档 提供 了 直接 的 便利 。 


<DOC> 

<DOCNO> LA0S51990-0141 </DOCNO> 

<HEADLINE> COUNCIL VOTES TO EDUCATE DOG OWNERS </HEADLINE> 

<P> 

The City Council stepped carefully around enforcement of a dog-curbing 


ordinance this week, vetoing the use of police to enforce the law. 
</P> 








</DOC> 








图 1-7 TREC 第 五 张 CD 中 的 文档 例子 (LA051990-0141) 


新 的 TREC 的 特定 任务 所 需 的 文档 集 通常 都 从 Web 中 得 到 。 到 2009 年 为 止 ， 其 中 最 大 
的 是 426 GB 的 GOV2 集 ， 包含 了 由 2004 年 初 开始 从 美国 政府 的 gov 域名 站 点 上 抓 取 的 
2500 万 个 网 页 。 网 络 疏 虫 从 gov 域名 中 尽 可 能 多 地 抓 取 网 页 ， 因 此 这 个 集合 可 视 为 这 段 时 间 
内 该 域名 的 合理 快照 。GOV2 包含 了 各 种 长 度 和 格式 的 文档 ， 如 PDF 格式 的 长 技术 报告 ， 
甚至 只 包含 一 些 链 接 的 HTML 网 页 等 。 从 TREC 2004 直至 2006 结束 之 前 ，GOV2 共 构 建 
了 大 小 为 TB 级 的 专题 。 同 时 也 为 TREC 2007 和 2008 百 万 查询 专题 提供 了 文档 集 。 

虽然 GOV2 集合 大 大 超过 了 以 往 任何 的 TREC 集 , 但 对 比 由 商业 Web 搜索 引擎 能 够 处 
理 的 文集 而 言 ， 就 不 只 小 一 两 个 数量 级 了 。TREC 2009 引入 了 一 个 有 一 亿 多 个 Web 网 页 的 
集合 ， 即 ClueWeb09， 给 信息 检索 研究 者 提供 了 一 个 与 商业 Web 搜索 规模 相当 的 工作 
平台 。9 

每 年 ，NIST 会 为 一 个 专题 中 的 特定 任务 创建 50 个 新 的 主题 。 参 与 者 在 没有 下 载 完 这 
此 主题 之 前 是 不 能 运行 系统 的 。 下 载 完 这 些 主题 之 后 ， 参 与 者 从 中 创建 查询 ， 并 在 这 个 文集 
土 运行 这 些 查询 ， 然 后 把 排名 后 的 结果 返回 给 NIST 以 供 评价 。 

图 1-8 显示 了 一 个 TREC 1999 创建 的 典型 的 TREC 特定 任务 的 主题 。 像 大 多 数 TREC 
主题 一 样 ， 它 由 三 个 部 分 构成 ， 每 一 部 分 以 若干 格 式 描述 了 潜在 的 信息 需求 。 标 题 〈titie) 
字段 是 设计 成 作为 关键 字 查询 ， 类 似 于 提交 给 搜索 引擎 的 查询 一 样 。 描 述 (description F 
段 以 完整 句子 或 问题 的 形式 提供 了 比较 长 的 主题 要 求 描述 。 它 也 有 可 能 作为 一 个 查询 ， 特 别 
是 在 那些 将 自然 语言 处 理 技术 作为 检索 的 一 部 分 的 研究 系统 中 。 叙 述 〈narrative) 字段 ， 它 
可 能 是 很 长 的 一 段 ， 作 为 其 他 两 个 字段 的 补充 ， 提 供 一 些 指定 相关 文档 特性 的 额外 信息 。 令 
述 字段 主要 在 人 工 评价 的 时 候 会 用 到 ， 用 来 确定 检索 出 的 文档 是 否 与 主题 相关 。 

这 本 书 的 大 多 数 检索 实验 都 在 4 个 TREC 测试 集 上 进行 ， 基 于 两 个 文档 集 ， 一 个 较 小 ， 
一 个 较 大 。 较 小 的 文档 集 包含 了 上 述 TREC CD 中 第 四 、 第 五 个 CD 中 的 文档 ， 不 包括 美国 
国会 记录 (Congressional Record) 中 的 文档 。 这 个 文档 集 涵盖 了 金融 上 时报 (Financial 
Times)、 美 国联 邦 公报 (Federal Register). 美国 对 外 广播 情报 处 、 洛 杉 矶 时 报 CLA 
Times) 中 的 文档 。 这 个 文档 集 ， 称 为 TREC45， 用 于 TREC 1998 和 1999 主要 的 特定 任务 。 
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<top> 
<num> Number: 426 
<title> law enforcement, dogs 


<desc> Description: 
Provide information on the use of dogs worldwide for 
law enforcement purposes. 


<narr> Narrative: 

Relevant items include specific information on the 
use of dogs during an operation. Training of dogs 
and their handlers are also relevant. 











图 1-8 TREC 中 第 426 个 主题 


1998 年 和 1999 年 ， 基 于 这 个 文档 集 ，NIST 分 别 创建 了 50 个 用 于 相关 性 判断 的 主题 。 
1998 年 的 主题 编号 为 351~400, 1999 年 的 主题 编号 为 401 一 450。 因 此 ， 基 于 TREC45 这 
个 文档 集 ， 我 们 有 两 个 测试 集 ， 分 别 为 TREC45 1998 和 TREC45 1999。 虽 然 我 们 的 实验 过 
程 跟 TREC 中 所 对 应 的 实验 过 程 〈 在 这 里 我 们 不 详 述 ) 存在 一 些 细微 差别 ， 但 在 我 们 在 这 
些 文集 上 的 实验 结果 可 以 和 TREC 1998 和 1999 公布 的 结果 相 娘 美 。 

我 们 的 实验 中 较 大 的 那个 文档 集 是 上 述 的 GOV2 文集 。 我 们 将 这 个 集合 与 2004 年 (E 
题 编 号 701 一 750) 和 2005 年 〈 主 题 编号 751 一 800) TREC TB 级 专题 中 的 主题 和 判断 一 起 ， 
构成 了 GOV2 2004 和 GOV2 2005 文集 。 在 这 些 文集 上 的 实验 结果 报告 可 与 TREC 2004 和 
2005 公布 的 TB 级 专题 的 结果 相 媲 美 。 


表 1-2 ” 书 中 大 部 分 实验 所 用 的 测试 集 

















文档 集 文档 数 Kh (GB) 年 份 主题 
TREC45 500 000 2 1998 351~400 
1999 401~450 
GOV2 25 200 000 426 2004 701~750 
2005 751~800 


# 1-2 概括 了 我 们 的 四 个 测试 集 。 其 中 TREC 集 可 从 NIST 标准 参考 数据 产品 网 页 上 
的 专题 数据 库 22 和 23 得 到 .SGOV2 集 由 格拉 斯 哥 大 学 发 布 .这 些 文集 上 的 主题 和 查询 集 
可 从 TREC 数据 库 中 获得 .9 


15 ”开源 信息 检索 系统 


现在 有 很 多 开源 信息 检索 系统 可 供 你 使 用 ， 来 完成 本 书 的 练习 ， 并 开始 进行 自己 的 信息 
检索 实验 。 在 Wikipedia@ 中 总 是 可 以 找到 开源 信息 检索 系统 的 〈 非 详尽 ) 清单 。 

由 于 可 用 系统 的 清单 太 长 ， 我 们 不 能 全 部 都 详尽 地 介绍 。 在 这 里 ， 我 们 只 对 三 个 特定 的 
系统 进行 简要 的 概述 ， 选 这 三 个 系统 是 因为 它们 的 知名 度 、 对 信息 检索 研究 的 影响 力 或 它们 
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与 本 书 内 容 密切 相关 。 这 三 个 系统 都 可 以 从 Web 上 下 载 ， 根 据 它 们 各 自 的 许可 证 都 可 以 免 
费 使 用 。 


1.5.1 Lucene 


Lucene 是 一 个 用 Java 语言 实现 的 索引 和 检索 系统 ， 同 时 为 其 他 编程 语言 提供 了 开放 的 
接口 。 这 个 项 目 在 1997 年 由 Doug Cutting 开始 。 从 那 以 后 ， 它 由 一 个 单 开 发 者 的 成 果 发 展 
壮大 成 现在 多 个 国家 的 数 百 个 开发 者 共同 参与 的 全 球 项 目 。 这 个 项 目 目前 由 Apache Foun- 
dation? 主持 。Lucene 是 迄今 为 止 最 成 功 的 开源 搜索 引擎 。 运 行 它 的 最 大 的 系统 如 Wikipe- 
dia， 所 有 输入 到 Wikipedia 搜索 框 中 的 查询 都 由 Lucene 处 理 。 使 用 Lucene 索引 和 搜索 功能 
的 项 目 列表 可 在 Lucene 的 “PowerdBy” 页 面 S 中 找到 。 

以 模块 化 和 可 扩展 性 闻名 的 Lucene 允许 开发 者 定义 他 们 自己 的 索引 以 及 检索 规则 和 公 
式 。 在 底层 ，Lucene 的 检索 框架 基于 字段 Cied 这 一 概念 ， 每 一 个 文档 都 是 字段 的 集合 ， 
比如 文档 标题 、 内 容 、URL 等 。 这 使 得 它 易于 指定 结构 化 搜索 请 求 ， 并 对 于 文档 的 不 同 部 
分 可 以 给 予 不 同 的 权重 。 

由 于 其 大 受 欢 迎 ， 有 很 多 书 和 教程 可 以 帮助 你 快速 学 习 Lucene。 你 只 需 在 喜欢 的 Web 
搜索 引擎 中 试 一 下 查询 “Lucene tutorial”, 


1.5.2 Indri 


Indr 闪 是 用 C 十 十 语言 实现 的 学 术 信 息 检索 系统 。 它 由 马萨诸塞 大 学 的 研究 者 开发 ， 是 
Lemur 项 目 @ 的 一 部 分 ，Lemur 项 目 是 马萨诸塞 大 学 和 卡耐基 梅 隆 大 学 的 共同 研究 成 果 。 

Indri 因 它 的 高 检索 效率 而 著名 ， 总 能 在 TREC 搜索 引擎 排行 榜 中 的 前 几 位 找到 它 。 它 
的 检索 模型 是 第 9 章 介绍 的 多 种 语言 模型 方法 的 结合 。 与 Lucene 一 样 ，Indri 可 以 处 理 文 档 
的 多 个 字段 ， 如 标题 、 内 容 、 销 文本 ， 这 对 于 Web 搜索 是 非常 重要 的 (第 15 $). Ht 
相关 反馈 机 制 ，Indri 支持 自动 查询 扩展 ， 自 动 查询 扩展 是 一 种 在 初始 查询 请 求 中 增加 相关 
查询 词 的 技术 ， 这 种 技术 的 实现 是 基于 初始 查询 结果 内 容 的 〈 见 8. 6 节 )。Indri 还 支持 独立 
于 查询 的 文档 评分 ， 例 如 给 搜索 结果 排名 时 ， 可 偏向 比较 新 的 文集 〈 见 9. 1 节 和 15. 3 节 )。 


1.5.3 Wumpus 


Wumpus® EM C 十 十 语言 实现 的 学 术 搜 索引 擎 ， 由 滑铁卢 大 学 开发 。 不 像 多 数 其 他 的 
搜索 引擎 ，Wumpus 没有 “文档 ”这 个 概念 ， 在 建立 索引 的 时 候 也 不 知道 每 一 个 文档 的 开 
始 和 结束 。 相 反 ， 文 档 集 的 每 个 部 分 都 有 可 能 作为 一 个 检索 单元 ， 这 主要 取决 于 查询 中 指定 
的 结构 化 搜索 条 件 。 这 对 于 某 些 搜索 任务 来 讲 具有 相当 的 吸引 力 ， 在 这 些 搜索 中 ， 理 想 的 搜 
索 结 果 不 是 一 个 完整 的 文档 而 是 文档 的 一 节 、 一 段 ， 或 者 几 个 顺序 段落 。 

Wumpus 支持 很 多 不 同 的 检索 方法 ， 包 括 第 2 章 的 近似 排名 函数 、 第 8 章 的 BM25 算法 
和 第 9 章 讨 论 到 的 语言 模型 和 随机 性 差异 的 方法 。 此 外 ， 它 还 可 以 进行 实时 索引 更 新 〈 例 
如 ， 添 加 /删除 文档 到 /从 索引 并且 为 多 用 户 的 安全 限制 提供 支持 ， 因 为 当 系统 有 多 个 用 户 
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时 ， 每 个 用 户 只 能 搜索 索引 中 的 一 部 分 ， 这 种 安全 限制 就 很 有 用 了 。 
除非 有 明确 说 明 ， 本 书 中 所 展示 的 性 能 图 都 使 用 Wumpus 得 到 。 


1.6 ”延伸 阅读 


本 书 并 不 是 信息 检索 这 个 主题 的 第 一 本 书 。 之 前 的 书 都 对 信息 检索 进行 了 一 般 介 绍 ， 有 
JLA FEHR. Salton (1968) 和 van Rijsbergen (1979) 撰写 的 经 典 书籍 继续 介绍 了 这 个 领 
域 的 基本 问题 。Grossman 和 Frieder (2004) 提出 的 重要 主题 的 处 理 方法 仍然 在 使 用 。Wit- 
ten SA (1999) 提供 了 一 些 本 书 中 没有 涉及 的 相关 主题 上 的 背景 资料 ， 包 括 文本 和 图 像 
压缩 。 

近 几 年 ， 有 几 个 很 好 的 介绍 性 的 教材 。Croft 等 人 〈2010) 的 教科 书 主要 是 面向 本 科学 
生来 介绍 这 个 领域 。Baeza-Yates 和 Ribeiro-Neto (2010) 提供 了 这 个 领域 上 的 一 个 较 全 面 
的 调查 报告 ， 不 同 的 专家 就 各 自 专 长 的 领域 负责 不 同 的 章节 。Manning A (2008) 提供 了 
另外 一 个 可 读 的 调查 报告 。 

特定 主题 上 的 调查 文章 会 定期 地 出 现在 信息 检索 基础 与 趋势 Foundations and Trends 
in Information Retrieval) 系列 杂志 上 ， 数 据 库 系统 百科 全 书 〈Encyclopedia of Database 
Systems) (Özsu and Liu, 2009) 也 收录 了 很 多 与 信息 检索 相关 主题 的 介绍 性 文章 。Hearst 
(2009) 给 出 了 用 于 信息 检索 应 用 的 用 户 接口 设计 简介 。 自 然 语 言 处 理 领 域 ， 特 别 是 统计 自 
然 语 言 处 理 的 子 领 域 ， 跟 信息 检索 领域 密切 相关 。Manning and Schütze (1999) 提供 了 该 领 
域 的 详细 介绍 。 

在 该 领域 顶级 的 研究 会 议 是 ACM 举办 的 国际 信息 检索 大 会 〈SIGIR) ， 现 在 已 经 举办 四 
十 多 年 了 。 其 他 顶级 的 研究 会 议和 研讨 会 包括 ACM 信息 知识 和 组 织 会 议 CACM Confer- 
ence on Information and Knowledge Management，CIKM)， 数 字 图 书馆 联合 会 议 (Joint 
Conference on Digital Libraries，JCDL) ， 欧 洲 信 息 检 索 会 议 (European Conference on In- 
formation Retrieval, ECIR), ACM 网 络 检 索 与 数据 挖 据 国 际会 议 CACM International 
Conference on Web Search and Data Mining，WSDM) ， 字 符 串 处 理 及 信息 检索 研讨 会 
(String Processing and Information Retrieval，SPIRE) ， 信 息 检 索 会 议 (Text REtrieval 
Conference，TREC) 。 重 要 的 信息 检索 研究 成 果 也 会 经 常 出 现在 相关 领域 的 顶级 出 版 物 中 ， 
比如 说 万 维 网 会 议 (World Wide Web Conference，WWW)， 神 经 信息 处 理 系 统 年 会 (An- 
nual Conference on Neural Information Processing Systems，NIPS) ， 人 工 智能 会 议 〈Con- 
ference on Artificial Intelligence, AAAD 和 知识 发 现 和 数据 挖掘 会 议 〈Knowledge Discov- 
ery and Data Mining Conference，KDD)。 最 好 的 信息 检索 刊物 是 AM 信息 系统 会 刊 
(ACM Transactions on Information Systems)。 其 他 较 好 的 刊物 包括 信息 检索 (Information 
Retrieval) 和 之 前 的 信息 处 理 与 管理 (Information Processing & Management) 。 

我 们 能 得 到 很 多 致力 于 学 习 和 使 用 XML 的 书籍 和 网 站 。 一 个 重要 的 资源 是 万 维 网 联盟 
(World Wide Web Consortium, W3C)°R) XML 主页 ， 万 维 网 联盟 是 负责 定义 和 维护 XML 
技术 规范 的 组 织 。 除 了 大 量 的 参考 资料 ， 这 个 网 站 上 还 有 链接 指向 介绍 性 教程 和 指南 。Jon 
Bosak 的 个 人 主页 2 包含 很 多 XML 的 早期 发 展 和 应 用 相关 的 文章 和 其 他 信息 ， 包 括 莎 士 比 
亚 的 戏剧 。 
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1.7 练习 


练习 1. 1 记录 下 来 你 将 要 提交 的 十 个 查询 〈 如 果 你 的 搜索 引擎 支持 ， 你 可 以 查看 网 页 浏览 记录 ) 。 注 
意 与 之 前 提交 的 查询 相 比 有 哪些 是 完善 的 地 方 ， 例 如 通过 增加 或 删除 一 些 查询 词 来 减 小 或 增 大 搜索 范围 。 
然后 选择 三 个 商业 搜索 引擎 ， 包 括 你 最 常用 的 那个 ， 然 后 在 这 三 个 引擎 上 重新 做 这 些 查询 。 检 查 每 个 引擎 
返回 结果 中 的 前 5 个 结果 。 用 一 10 到 十 10 对 每 个 结果 进行 评分 ， 其 中 十 10 表示 这 个 结果 很 好 ， 一 10 表示 
这 是 一 个 误导 结果 〈 垃 圾 ) 。 计 算 每 个 搜索 引擎 在 所 有 十 个 查询 和 结果 上 所 得 到 的 平均 分 。 你 最 常用 的 那个 
是 否 得 到 了 最 高 分 ? 你 认为 这 个 练习 中 的 结果 是 否 真实 反映 了 搜索 引擎 的 相对 质量 ? 对 这 个 实验 提出 三 个 
可 能 的 改进 方法 。 

练习 1.2 下 载 并 安装 一 个 开源 信息 检索 系统 ， 如 1.5 节 列 出 的 那些 。 从 你 的 E-mail 或 其 他 资料 里 创 
建 一 个 小 的 文档 集 ， 几 个 就 够 了 。 为 它们 建立 索引 ， 并 试 着 做 一 些 查询 。 

练习 1.3 在 图 1-6 的 马尔 可 夫 模型 中 ， 从 状态 3 开始 ， 生 成 “not not be to be” 的 概率 是 多 少 ? 

练习 1.4 在 图 1-6 的 马尔 可 夫 模 型 中 ， 从 未 知 状态 开始 生成 “to be”。 生 成 之 后 会 到 达 哪 个 或 哪些 
状态 ? 

练习 1.5 在 图 1-6 的 马尔 可 夫 模 型 中 ， 是 否 存在 有 限 数 nn， 使 得 无 论 从 哪个 状态 开始 ， 都 可 以 在 生成 
n 个 或 大 于 %n 个 的 字符 串 之 后 ， 总 能 得 知 当 前 状态 ? 

练习 1.6 给 定 一 个 马尔 可 夫 模 型 ， 假 设 存在 有 限 数 %， 使 得 无 论 从 哪个 状态 开始 ， 可 以 在 生成 双 个 
RAF n 个 的 字符 串 之 后 ， 总 能 得 知 当 前 状态 。 描 述 一 个 把 马尔 可 夫 模 型 转换 成 n 阶 有 限 上 下 文 模型 的 
过 程 。 

练习 1.7 ”假设 我 们 扩展 了 马尔 可 夫 模 型 使 得 每 对 状态 之 间 存 在 多 个 转移 ， 其 中 每 个 转换 上 面 标识 一 
个 不 同 的 词 项 。 对 于 任意 这 样 的 模型 ， 证 明 存 在 一 个 等 价 的 马尔 可 夫 模 型 ， 使 得 任意 状态 对 中 不 超过 一 个 
转移 。 提 示 : 分 割 目标 状态 。 

练习 1.8 描述 将 n 阶 有 限 上 下 文 语 言 模型 转换 为 马尔 可 夫 模 型 的 步 又 。 总 共 需 要 用 多 少 个 状态 ? 

练习 1.9 (项 目 练习 ) 这 个 练习 基于 Wikipedia 创建 了 一 个 测试 集 ， 在 第 一 部 分 后 面 的 很 多 练习 中 都 
会 用 到 它 。 

首先 ， 下 载 一 个 最 新 的 英文 版 Wikipedia。 在 撰写 本 文 时 ， 它 的 下 载 版 本 包括 一 个 大 文档 。Wikipedia 
本 身 包含 了 描述 这 个 下 载 格式 的 文档 5 。 

除了 文章 本 身 ， 下 载 还 包括 了 重 定向 记录 (redirection record), FAT RAM, WAX PR 
文集 ， 去 除 这 些 记录 和 其 他 任何 无 关 的 信息 ， 只 留 下 一 组 独立 的 文档 集合 。Wikipedia 本 身 的 格式 也 应 该 去 
掉 ， 或 者 你 也 可 以 用 XML 风格 的 标签 来 替换 。 给 每 篇 文章 添加 一 个 标识 符 。 添 加 〈DOC》 和 (DOCNO) 
标签 。 结 果 应 该 与 TREC 规则 相 一 致 ， 如 1.4 节 文 字 和 图 1-7 所 描述 的 那样 。 

练习 1. 10 (项 目 练习 ) 根据 图 1-8 的 样式 ， 创 建 3 一 4 个 主题 在 英文 的 Wikipedia 上 测试 检索 性 能 。 避 
免 那 种 一 篇 “好 ”文章 就 能 完全 满足 信息 需求 的 主题 。 相 反 地 ， 应 尽 可 能 创建 那些 需要 多 篇 文章 才能 覆盖 
相关 信息 的 主题 。( 注 意 , 这 个 练习 适合 作为 一 个 班级 项 目的 基础 ， 创 建 一 个 Wikipedia 测试 集 ， 每 个 学 生 
贡献 足够 多 的 主题 使 得 主题 总 数 达到 50 或 更 多 )。( 更 多 细节 参考 练习 2.13) 

练习 1. 11 (项 目 练习 ) 下载 并 安装 一 个 开源 信息 检索 系统 〈 见 练习 1. 2) 。 用 这 个 信息 检索 系统 索引 
你 在 练习 1. 9 中 建立 的 测试 集 。 用 你 在 练习 1. 10 中 创建 的 主题 标题 作为 查询 。 对 每 个 主题 ， 判 断 前 5 个 返 
回 的 文档 是 否 是 相关 的 。 该 系统 对 所 有 主题 是 否 都 适用 ? 

练习 1. 12 (项 目 练习 ) ”根据 1. 3. 2 节 介 绍 的 过 程 ， 对 你 在 练习 1. 9 中 创建 的 文集 进行 分 词 。 在 这 个 练 
习 中 ， 除 去 所 有 的 标签 ， 即 只 包含 词 〈 即 字母 数字 串 ) Wikipedia 文本 已 进行 了 UTF-8 编码 ， 但 是 在 这 个 
练习 中 ， 你 可 以 把 它 当做 是 ASCII 文 本 。 画 一 个 词 频 - 排 名 对 数 坐 标 图 ， 就 像 图 1-5 那样 。 数 据 是 否 符合 齐 
RER? 如 果 符 合 ，a 的 近似 值 是 多 少 ? 
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练习 1. 13 (项 目 练习 ) 根据 练习 1. 12 的 分 词 结果 ， 创 建 一 个 三 元 语言 模型 。 利 用 这 个 语言 模型 ， 实 
现 一 个 Wikipedia 文本 随机 生成 器 。 你 将 如 何 扩展 这 个 文本 生成 器 来 生成 大 小 写 和 标点 符号 ， 使 生成 文本 
更 像 英语 ? 你 又 如 何 扩展 这 个 生成 器 来 生成 包含 标签 和 链接 的 Wikipedia 随机 文本 ? 
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Information Retrieval: Implementing and Evaluating Search Engines 


基础 技术 


作为 本 书 余下 部 分 的 基础 ， 本 章 将 对 第 1 章 提 及 的 信息 检索 的 各 方面 内 容 做 一 个 概述 ， 
包括 索引 、 检 索 和 评价 的 基础 。 索 引 和 检索 的 内 容 构成 了 前 两 节 ， 它 们 紧密 联系 ， 为 这 些 主 
题 所 供 了 一 个 统一 的 观点 。 第 三 节 主 要 讨论 评价 ， 即 对 前 两 节 中 介绍 的 算法 的 效率 和 有 效 性 
进行 评价 。 
2.1 倒 排 索引 

倒 排 索引 〈 有 时 称 为 倒 排 文件 〈inverted file)) 几乎 是 每 一 个 信息 检索 系统 的 核心 数据 
结构 。 最 简单 地 ， 倒 排 索引 提供 了 文档 集 C 中 词 项 与 其 出 现 的 位 置 之 间 的 映射 。 倒 排 索引 的 
基本 组 成 可 由 图 2-1 解释 ， 它 给 出 了 忒 士 比 亚 戏 剧 集 (图 1-2 和 图 1-3) 文本 上 的 一 个 索引 。 
词典 (dictionary) 列 出 了 文档 集 的 词汇 表 y 中 包含 的 词 项 。 每 一 个 词 项 与 一 个 表征 它 出 现 位 
置 的 位 置信 息 列 表 (postings list) 相关 联 ， 这 个 列表 与 图 1-4 中 的 位 置 编号 是 一 致 的 。 
词典 位置 信息 列表 











first - 2205, 2268, ..., 745406, 745466, 745501, ..., 1271487 | 
hurlyburly « 316669, 745434_ 、 | 7 — 
17, 49, -745418， 745422， .1271480 oo 


L 36898, 137236, 6... 7145397, 745419, ~ 1247139 o 







thunder « 


La : 
a 1598, 27555, 745407, 1454: 


witch © A 
| 7174, 165150, 1259406 — 


witchcraft a >| 
witches « | 
-witching ae 


111018, 119183, 745402, 2, 762883 — 
>| 3, 40511, 1234602 ， 


265197 -o 
=| 313, DT 745427, 745449, 745465, 1271274 | 





















429, 745451, 745467, „1245276 








as ws « | 312, 471, -745404， 745426， 745448, 745464， 1271273 









asec 。 470， 486, 745425, 745447, 745463, 745474, 1271498 | 


| 20508, 75580, =, 1271504 a o 














图 2-1 $e RRA ERS. ARB T A a BZ ee 


如 果 你 之 前 接触 过 倒 排 索引 ， 你 可 能 会 惊讶 于 图 2-1 展示 的 索引 不 包含 文档 标识 符 ， 只 
简单 地 包含 每 个 词 项 在 文档 集中 出 现 的 位 置 。 这 种 类 型 的 索引 称 为 模式 独立 索引 schema- 
independent index) ， 因 为 这 种 索引 不 对 文档 的 底层 结构 作 任 何 假定 数据 库 领 域 通常 称 为 
模式 (schema))。 这 种 索引 是 最 简单 的 ， 所 以 本 章 中 绝 大 部 分 例子 都 使 用 这 种 类 型 的 索引 。 
2. 1. 3 节 将 会 概述 其 他 的 索引 类 型 。 
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不 管 使 用 的 是 哪 一 种 特定 类 型 的 索引 ， 索 引 的 组 成 部 分 一 一 词典 与 位 置信 息 列表 一 一 -都 
”可 以 存储 在 内 存 、 磁 盘 ， 或 者 同时 存在 于 二 者 中 。 现 在 ， 我们 特意 把 精确 的 数据 结构 模糊 

化 。 将 倒 排 索引 定义 为 一 个 具有 四 个 方法 的 抽象 数据 类 型 “ADT)。 

。 first(t) 返回 词 项 t 在 文档 集中 第 一 次 出 现 的 位 置 ; 

。 last(t) 返回 词 项 t 在 文档 集中 最 后 一 次 出 现 的 位 置 ， 

。 next(t, current) 返回 在 current 位 置 之 后 词 项 t 第 一 次 出 现 的 位 置 ; 

。 prev(t, current) 返回 在 current 位 置 之 前 词 项 t 最 后 一 次 出 现 的 位 置 。 

并 且 ， 我 们 定义 L 为 词 项 志 在 文档 集中 出 现 的 总 次 数 《〈 即 该 词 项 位 置信 息 列 表 的 长 
E), EX lc 为 文档 集 的 长 度 ， 因 此 有 iev Li 二 le OY 指 的 是 文档 集 的 词汇 表 )。 

从 图 2-1 中 的 倒 排 索引 中 ， 我 们 可 以 得 到 : 


first (“hurlyburly” ) = 316669 last (“thunder”) = 1247139 

first (“witching”) = 265197 last (“witching”) = 265197 

next (“witch”, 745429) = 745451 prev(“witch”, 745451) = 745429 

next (“hurlyburly”, 345678) = 745434 prev(“hurlyburly”, 456789) = 316669 
next( “witch”, 1245276) = co prev( “witch”, 1598) = 一 co 
lepLay> = 37 le = 1271504 


lwitching =1 
符号 一 eo 和 oo 分 别 是 文档 开始 和 结束 的 标记 ， 代 表 了 超出 词 项 序列 头 尾 之 外 的 位 置 。 作 
为 一 个 实用 的 约定 ， 我 们 有 如 下 定义 : 
next (t, 一 oo) = first(t) next(t, 00) = oo 
prev (t, oo) = last (t) prev(t, —0o) = 一 co 
倒 排 索引 的 方法 允许 顺序 或 随机 地 访问 位 置信 息 列表 ， 其 中 每 个 位 置信 息 列 表 的 顺序 扫 
描 都 是 一 个 简单 循环 。 . 


current — 一 CO 
while current < co do 
current — next(t, current) 
do something with the current value 


然而 ， 许 多 算法 需要 对 位 置信 息 列 表 随 机 访问 ， 包 括 接 下 来 要 介绍 的 词组 查找 算法 。 通 
常 ， 这 些 算法 将 某 个 词 项 的 函数 调用 的 输出 结果 作为 另外 一 个 词 项 的 函数 调用 的 参数 ， 而 不 
是 顺序 访问 位 置信 息 列 表 。 


2.1.1 延伸 例子 : 词组 查找 


许多 商用 Web 搜索 引擎 以 及 其 他 的 信息 检索 系统 ， 将 以 双 引 号 括 起 来 Coe") HAM 
列表 视 为 是 一 个 词组 。 为 了 处 理 包 含 词 组 的 查询 ， 信 息 检索 系统 必须 要 能 确定 词组 在 文档 集 
中 出 现 的 位 置 。 这 个 信息 在 检索 过 程 中 用 于 过 滤 和 排名 一 一 那些 不 包含 这 个 词组 的 准确 匹配 
的 文档 将 可 能 被 去 除 。 

词组 查找 算法 很 好 地 展示 了 算法 在 倒 排 索 引 上 是 如 何 操 作 的 。 假 如 我 们 要 在 莎士比亚 戏 
剧 集中 找到 词组 “first witch” 所 有 出 现 的 位 置 。 也 许 我 们 正 想 知道 这 个 角色 要 讲 的 所 有 人 台 
词 。 通 过 肉眼 扫描 图 2-1 的 位 置信 息 列表 ， 我 们 可 以 在 745406 ~ 745407 之 疗 找 到 它 的 一 次 
出 现 。 通 过 类 似 的 方式 ， 即 查找 到 “first” 的 后 面 紧 跟 “witch”， 我 们 也 可 以 定位 这 个 词组 
在 文档 集中 其 他 出 现 的 位 置 。 本 节 我 们 给 出 一 个 实现 这 一 过 程 的 算法 ， 在 我 们 定义 的 倒 排 索 
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引 ADT 的 辅助 下 ， 它 可 以 高 效 地 定位 给 定 词组 所 有 出 现 的 位 置 。 

我 们 用 一 段 区 间 Cu, v] 来 表示 一 个 词组 的 位 置 ， 其 中 u 代表 词组 出 现 的 起 始 位 置 ， 
v 代表 结束 位 置 。 除 [745406，745407] 外 ， 词 组 “first witch” 还 出 现在 [745466, 
745467], [745501, 745502] 和 其 他 位 置 。 词 组 查找 算法 的 目的 就 是 确定 文档 集中 给 定 词组 
所 有 出 现 位 置 的 u Mot. 

本 书 我 们 就 采用 如 上 所 述 的 区 间 表 示 法 来 确定 检索 结果 。 在 某 些 上 下 文中 ， 这 种 区 间 表 
示 法 也 可 以 很 方便 地 表示 那个 地 方 出 现 的 文本 。 例 如 ， 区 间 [914823，914829] 表示 以 下 
文本 : 

O Romeo, Romeo! wherefore art thou Romeo? 

给 定 一 个 包含 n 个 词 项 的 词组 “ti 如 … 如 2”， 算 法 将 从 左 到 右 扫描 位 置信 息 列 表 ， 为 每 
个 词 项 调用 next 方法 ， 然 后 从 右 到 左 扫描 ， 为 每 个 词 项 调用 prev 方法 。 经 过 这 样 一 次 往 
返 ， 算 法 就 计算 出 一 个 区 间 ， 区 间 中 词 项 按 顺 序 出 现 并 且 位 置 尽 可 能 靠近 。 然 后 ， 算 法 检查 
词 项 是 否 是 紧密 相 邻 的 。 如 果 是 ， 则 找到 了 该 词组 的 一 个 出 现 ， 否则 ， 算 法 继续 执行 。 

图 2-2 给 出 了 给 定位 置 之 后 查找 词组 下 一 次 出 现 位 置 的 函数 nextPhrase 的 算法 核心 。 第 
2 一 3 行 循 环 调用 倒 排 索引 中 的 方法 ， 按 顺序 定位 词 项 。 循 环 结束 后 ， 如 果 词 组 出 现在 区 间 
Lposition, v] 中 ， 那 么 ， 词 组 在 位 置 v 处 结束 。 第 7 一 8 行 的 循环 在 保持 词 项 顺序 的 前 提 
下 将 区 和 间 尽 可 能 地 缩小 。 最 后 ， 第 9 一 12 行 验证 这 些 词 项 是 否 是 紧密 相 邻 的 。 如 果 不 毗 邻 ， 
函数 将 执行 一 个 尾 递 归 调 用 。 在 第 12 行 中 ， 注 意 到 u (而 不 是 v) 作为 递归 调用 的 第 二 个 
参数 被 传递 。 如 果 词 组 中 每 一 个 词 项 都 不 同 , 那么 v 也 可 作为 这 个 参数 被 传递 。 当 词组 中 
有 两 个 词 项 t; Alt; Al A<i<j<n), 传递 才能 够 正确 处 理 这 一 情况 。 








| nextPhrase (tit2...tn, position) = 
1 v — position 
for į — 1 to n do 
u — next(ti, v) 
if v = œ then 
return [co, oo] _ 
ure 
for i — n — 1 down to 1 da 
we prev(ti, u) 
ifv — u =n — 1 then 
return [u, v] 
else 
return nextPhrase(tit2...tn, u) 


Pre OC keN Som eB ON 


aw 





[| 








图 2-2 查找 在 给 定位 置 之 后 一 个 词组 第 一 次 出 现 的 位 置 的 函数 ， 函 数 调用 倒 排 索引 ADT 
的 next 和 prev 方法 ， 返 回 文档 集中 的 一 段位 置 区 间作 为 结果 


举 个 例子 ,假如 我 们 想 要 找 出 词组 “first witch” 第 一 次 出 现 的 位 置 ，nextPhrase 
(“first witch”， 一 cc) 。 算 法 首先 确定 “first” 第 一 次 出 现 的 位 置 ， 
next ( “first”, —oo) = first (“first”) = 2205 
”如 果 这 次 出 现 的 “first” 是 这 个 词组 的 一 部 分 那么 紧 跟 着 就 应 该 出 现 “witch”。 
然而 ， 
next( “witch”, 2205) = 27555 
也 就 是 说 ,“witch” 并 没有 紧 随 其 后 。 我 们 现在 可 以 断定 这 个 词组 第 一 次 出 现 的 结束 位 置 不 
可 能 在 位 置 27555 之 前 ， 我 们 计算 
prev( “first”, 27555) = 26267 
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在 “first” 的 位 置信 息 列 表 中 ， 我 们 可 以 发 现 从 2205 一 26267 之 间 “first” 出 现 了 15 
次 。 因 为 区 间 [26267，27555] 的 长 度 为 1288， 而 不 是 符合 要 求 的 长 度 2， 所 以 算法 继续 寻 
找 “first” 的 下 一 次 出 现 位 置 ， 

next (“first”, 26267) = 27673 

注意 到 算法 第 8 行 中 对 prev 方法 的 调用 不 是 必需 的 〈 见 练习 2. 2) ， 但 是 它们 能 够 帮助 
我 们 分 析 这 个 算法 的 复杂 度 。 

如 果 我 们 想 获 得 词组 所 有 的 出 现 位 置 而 不 仅 是 一 次 ， 则 需要 多 一 个 循环 ， 为 词组 的 每 一 
次 出 现 都 调用 一 次 nextPhrase， 

u — 一 00 
while < co do 
[u,v] — nextPhrase(“ttg...tn”, u) 
if u # œ then 
report the interval [u,v] 

循环 会 报告 产生 的 每 一 个 区 间 。 依 具体 的 应 用 而 定 ， 报 告 Cu, v] 的 同时 可 能 还 需 返 
回 包含 这 个 词组 的 文档 给 用 户 ， 或 者 是 用 数组 或 者 其 他 数据 结构 来 保存 这 些 区 间 以 便 进 一 步 
处 理 。 与 图 2-2 中 的 代码 类 似 ，% (而 不 是 v) 是 nextPhrase 的 第 二 个 参数 。 从 而 ， 在 以 下 
这 有 段 著名 的 Monty Python? 的 歌词 中 ， 该 函数 能 正确 地 定位 阅 组 “spam spam spam” 出 现 
了 六 次 : 

Spam spam spam spam 

Spam spam spam spam 

为 了 分 析 这 个 算法 的 时 间 复 杂 度 ， 首 先 观察 到 ， 每 次 调用 nextPhrase 都 O(n) RIA 
了 倒 排 索引 中 的 next 和 prev WH (n 次 调用 next, HEA n—1 次 调用 prev)。 算 法 执行 到 
第 8 行 后 ， 区 间 Lu. v] 包含 了 词组 中 按 顺 序 出 现 的 所 有 词 项 ， 并 且 不 存在 一 个 更 小 的 区 
间 包 含 以 上 按 顺 序 出 现 的 词 项 。 接 下 来 注意 到 词 项 t; 在 文档 集中 的 每 一 次 出 现 ， 在 算法 
1 一 8 行 计 算出 来 的 区 间 中 不 会 超过 一 次 。 即 使 词组 中 包含 两 个 相同 的 词 项 1, 和 t;， 与 t; 匹 
配 的 文档 集中 的 词 条 也 最 多 出 现在 一 个 区 间 中 ， 尽 管 这 个 词 条 可 能 会 作为 t; 的 匹配 出 现在 
另外 一 个 位 置 区 间 中 。 因 此 ， 算 法 的 时 间 复 杂 度 由 词组 里 所 有 词 项 中 最 短 位 置信 息 列 表 的 长 
度 来 决定 : 

l= min Le, (2-1) 

综合 这 些 观察 ， 在 最 坏 的 情况 下 算法 需要 O(n 。 DRAH ADT 中 的 方法 来 定位 词组 所 
有 出 现 的 位 置 。 如 果 词 组 同时 包含 常见 词 项 和 非常 见 词 项 (“Rosencrantz and Guildenstern 
are dead”) ， 那 么 调用 次 数 决定 于 最 不 频繁 的 词 项 (“Guildenstern”) 而 不 是 最 频繁 的 词 项 
(“and”), 

我 们 强调 一 下 ，0(%“， 六 代 表 的 是 调用 方法 的 次 数 ， 而 不 是 算法 的 步 数 ， 且 每 个 方法 
调用 所 需 的 时 间 依 赖 于 方法 的 具体 实现 细节 。 根 据 算法 对 数据 结构 的 访问 模式 ， 存 在 一 个 简 
单 高 效 的 实现 方法 ， 且 对 于 同时 含有 频繁 词 项 和 非 频繁 词 项 的 词组 有 很 好 的 性 能 。 我 们 在 下 
一 小 节 会 详细 介绍 。 





© Monty Python (E) 小 组 是 英国 六 人 喜剧 团体 ， 成 立 于 20 世纪 60 年 代 后 期 。 他 们 的 电视 喜剧 系列 《Monty 
Pyihon's Flying Circus) 在 20 世纪 70 年 代 风靡 一 时 。 科 学 家 〈 尤 其 是 计算 机 科学 家 ) 在 命名 新 事物 时 经 常会 从 
Python 上 寻找 灵感 ， 网 络 术 语 “spam” (SR ABE) 来 自 Python 的 著名 电视 剧 集中 的 一 集 ， 他 们 在 其 中 以 
“spam” 为 歌词 不 停 地 唱 着 ; 而 编程 语言 “Python” 更 是 一 种 直接 的 借用 。 一 一 译 者 注 
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虽然 在 最 坏 的 情况 下 算法 需要 OCn，。) 次 调用 方法 ,但 是 实际 次 数 依 赖 于 词 项 在 文档 
集中 的 相对 位 置 。 例 如 ， 假 定 我 们 要 在 以 下 编排 的 文档 集中 搜索 “hello world” 这 个 词组 : 
hello … hello … hello +++ hello world … world … world … world 
所 有 的 “hello” 都 出 现在 “world” 前 面 。 那 么 无 论 这 个 文档 有 多 大 或 是 每 个 词 项 出 现 多 少 
次 ， 这 个 算法 都 只 需 调用 四 次 方法 ， 就 能 确定 这 个 词组 在 文档 中 只 出 现 了 一 次 。 尽 管 这 个 例 
子 有 些 极端 且 不 太 实际 ， 但 它 解释 了 算法 内 在 的 自 适 应 性 (adaptive) -一 它 的 实际 执行 时 
间 由 数据 特性 决定 。 其 他 一 些 信息 检索 问题 也 可 以 用 自 适应 的 算法 来 解决 ， 我 们 也 会 为 了 提 
高 效率 而 尽 可 能 地 使 用 这 些 自 适 应 的 算法 。 

为 了 更 清晰 地 说 明 这 个 算法 的 自 适 应 性 ， 我 们 介绍 一 种 可 以 决定 调用 方法 次 数 的 数据 特 
征 的 指标 。 考 虑 图 2-2 中 第 9 行 检验 代码 之 前 获得 的 区 间 [%，?2]。 这 个 区 间 包 含 了 词组 中 
按 顺 序 出 现 的 所 有 词 项 ， 并 且 不 存在 一 个 更 小 的 区 间 包 含 按 顺 序 出 现 的 所 有 词 项 。 我 们 将 具有 
这 种 特点 的 区 间 称 为 词 项 的 候选 词组 (candidate phrase), EX e 为 这 个 给 定 文档 集中 的 所 有 候 
选 词组 的 个 数 ， 那 么 为 了 获取 该 词组 所 有 出 现 的 位 置 ， 所 需 调用 方法 的 次 数 为 O(n ° e). 


2.1.2 ”实现 倒 排 索引 


It moves across the blackness that lies between stars, and its mechanical legs 





move slowly. Each step that it takes, however, crossing from nothing to nothing, 
carries it twice the distance of the previous step. Each stride also takes the same 
amount of time as the prior one. Suns flash by, fall behind, wink out. It runs 
through solid matter, passes through infernos, pierces nebulae, faster and faster 
moving through the starfall blizzard in the forest of the night. Given a sufficient 
warnrup run, it is said that it could circumnavigate the universe in a single stride. 
What would happen if it kept running after that, no one knows. 

罗 杰 ， 泽 拉 效 尼 ,《 光 与 瞳 的 生灵 》 

当 文 档 集 不 发 生 改 变 且 小 到 足 可 以 全 部 放 在 内 存 中 时 ， 倒 排 索 引 可 以 用 非常 简单 的 数据 
结构 来 实现 。 词 典 可 以 存储 在 哈 希 表 或 类 似 结 构 中 ， 每 一 个 词 项 t 的 位 置信 息 列 表 可 以 存放 
在 一 个 长 度 为 1, 的 固定 数组 PE] 中 。 对 于 莎士比亚 文集 中 的 词 项 “witch”， 这 个 数组 可 以 
如 下 表示 : 


1 2 31 32 33 34 92 
| 1598 27555 T had 745407 T 745429 745451 745467 “0 1245276 | 


我 们 定义 的 倒 排 索引 ADT 的 first 和 last 方法 能 够 在 常数 时 间 内 分 别 返 回 P. C1] a 
Pi[14]，next 和 prev 方法 则 可 以 使 用 二 分 查找 来 实现 ， 时 间 复 杂 度 为 Oog). next F 
法 的 实现 细节 如 图 2-3 所 示 ，prev 方法 的 实现 细节 也 是 类 似 的 。 

回顾 2.1.1 节 介 绍 的 词组 查找 算法 在 最 坏 情 况 下 需要 调用 OO Cn + DY next 和 prev X- 
法 。 如 果 我 们 定义 ，; 











L= max l, (2-2) 


1l<i<n 


那么 算法 的 时 间 复 杂 度 变 为 OCn ol "log(L))， 因 为 每 次 调用 一 个 方法 最 多 需要 OKlog(L7)。 
当 使 用 符号 < 来 表示 候选 词组 数 时 ， 时 间 复 杂 度 变 为 O(n x "log(L))。 
当 词 组 中 同时 包含 频繁 词 项 和 非 频繁 词 项 时 ， 这 种 实现 方法 具有 非常 好 的 性 能 。 例 如 ， 
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在 莎士比亚 文集 中 ， 词 项 “tempest” 仅 出 现 了 49 次 。 正 如 我 们 在 1. 3. 3 节 中 所 见 ， 词 项 
“the” 出 现 了 28 317 次 。 然 而 ， 当 要 查找 词组 “the tempest” 时 ， 通 过 最 多 2X49=98 次 的 
二 分 查找 ， 我 们 需要 访问 “the” 的 位 置信 息 列 表 数 组 不 到 2000 次 。 


$$ 
next (t, current) = 


1 fl = 0 or P[k] < current then 
2 return co 
3 if P;[\| > current then 
4 return P.[1] 
return P,{binarySearch (t, 1, l+, current)] 


binarySearch (é, low, high, current) = 


6 while high — low > 1 do 

7 mid — |(low+ high) /2] 

x if Plmid < current then 
9 low 二 mid 

10 else 

11 high — mid 








| 12 return high 
图 2-3 et MSA OPA L next 方法 。 数 组 P,[] CREA) 保存 了 词 项 t 的 位 置 


信息 列表 。binarySearch 函数 假设 P,Clow]<current 和 Pi high ]> current. 算法 的 第 1~4 行 
保证 了 这 一 假设 ,第 6~11 行 的 循环 用 一 个 变型 维持 了 这 一 假设 


可 是 ， 当 词组 中 包含 出 现 频率 接近 的 词 项 时 ， 反 复 的 二 分 查找 是 非常 耗 时 的 。 词 组 
“two gentlemen” 中 的 两 个 词 项 在 莎士比亚 文集 中 都 出 现 了 几 百 次 《具体 分 别 是 702 和 225 
次 ) 。 定 位 这 个 词组 的 所 有 出 现 需要 超过 2000 次 访问 “two” 的 位 置信 息 列表 数组 。 在 这 种 
情况 下 ， 可 能 通过 同时 顺序 访问 两 个 位 置信 息 列 表 数 组 并 进行 比较 反而 会 比较 有 效 。 可 以 通 
过 修改 next 和 prev 方法 的 定义 让 词组 查找 算法 这 样 执行 。 

首先 ， 我 们 注意 到 词组 查找 算法 会 为 某 个 给 定 词 项 t; 连续 调用 next 方法 ， 包 括 递归 调 
用 在 内 ， 作 为 第 二 参数 传递 给 nextPhrase 的 值 是 严格 递增 的 。 在 为 给 定 词组 定位 所 有 出 现 
的 过 程 中 ， 算 法 会 1 次 调用 next 方法 〈 和 前 面 一 样 ， 这 里 的 上 是 最 短 的 位 置信 息 列 表 的 长 
B): 

next (ti, v1), next(ti, v2), ©, next(ti, vz) 
其 中 ， 
Vi vg <> VY} 
并 有 旦 ， 这 些 调用 的 返回 结果 也 是 严格 递增 的 : 
next(ti, vi) < next(ti, v2) < = < next(ti, vi) 
例如 ， 当 在 莎士比亚 文集 中 查找 “first witch” 了 时， 为 “first” 产 生 的 连续 调用 如 下 ， 
next(’first”,—o0) ;next(“ first” , 26267) , next(“ first” ,30608) ，… 
这 些 方 法 返回 的 值 如 下 : 
2205<<27673<<32995<<… 
HER, Vis Uz, ene 的 具体 值 以 及 next 方法 调用 的 实际 次 数 还 取决 于 这 个 词组 中 另 一 个 词 
项 的 位 置 。 但 是 我 们 可 以 知道 这 些 值 是 依次 递增 的 ， 并 且 在 最 坏 的 情况 下 有 【 个 。 

为 了 实现 线性 扫描 ， 我 们 记录 (或 缓存 ) 为 给 定 词 项 调用 next 方法 的 返回 值 。 当 (为 
同一 个 词 项 ) 再 次 调用 这 个 方法 时 ， 我 们 从 缓存 的 位 置 继续 扫 描 。 图 2-4 给 出 了 方法 的 实现 
细节 。 变 量 c, 缓存 了 上 一 次 调用 返回 的 值 在 数组 中 的 偏 移 量 ， 用 另 一 个 独立 的 值 来 缓存 词 
组 中 的 每 个 词 项 (如 case 和 Cwitch) 。 因为 算法 中 的 方法 可 能 不 会 按 严格 递增 的 顺序 来 处 理 位 
置信 息 列 表 ， 所 以 一 旦 假设 没有 被 满足 〈 第 6 一 7 行 )， 我 们 必须 小 心地 重 置 ct 。 
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next (t, current) = 

if; = 0 or P; [l] < current then 
return oo 

if P.[1] > current then 
aol 
return 已 [ce] 

if c > 1 and Pfc — 1] > current then 
al 

while 已 [cd] < current do 
Ct — Ce 十 

return Pe] 


图 2-4 采用 线性 扫描 实现 next 方法 。 这 种 实现 方法 为 每 个 词 项 t 维护 一 个 缓存 索引 偏 移 量 c:;， 这 里 
Pile 表示 为 这 个 词 项 调用 next 方法 返回 的 最 后 一 个 有 限 数 结果 〈 即 最 后 一 个 合理 的 位 置 一 一 


译 者 注 )。 如 果 这 个 位 置 存 在 ， 则 算法 从 这 个 缓存 偏 移 量 开 始 扫描 ， 知 则 在 算法 第 6 一 7 行 缓存 
偏 移 量 被 重 置 (为 1) 





如 果 我 们 采用 类 似 的 方法 实现 prev 方法 ， 也 维护 相应 的 缓存 值 ， 那 么 词组 查找 算法 为 
词组 中 的 词 项 扫描 位 置信 息 列表 ， 在 有 限 次 数 内 《0(1)) 访 问 位 置信 息 列表 数组 中 的 每 一 个 
元 素 。 因 为 算法 也 许 需要 完全 扫描 最 长 的 位 置信 息 列 表 (长 度 为 L)， 并 且 所 有 位 置信 息 列 
表 都 有 可 能 是 这 个 长 度 ， 所 以 算法 的 整体 时 间 复 杂 度 为 0C(n， L)。 这 种 情况 下 算法 的 自 适 
应 特性 没有 产生 任何 好 处 。 

现在 我 们 有 两 种 实现 next 和 prev 的 方法 ,使 得 nextPhrase 也 有 两 种 实现 方法 。 第 一 种 
实现 方法 整体 时 间 复 杂 度 为 O(n el "log(L))， 特 别 适 用 于 最 短 位 置信 息 列 表 比 最 长 位 置信 
息 列 表 短 很 多 的 情况 (<L)。 第 二 种 实现 方法 的 时 间 复 杂 度 为 On "上 L)， 适 用 于 所 有 位 置 
信息 列表 长 度 近 似 的 情况 CSL). | 

对 于 这 两 种 方法 ， 我 们 可 以 想象 在 运行 时 通过 比较 lL 来 选择 合适 的 算法 。 然 而 ， 
通过 结合 以 上 两 种 算法 的 特征 ， 还 是 有 可 能 定义 第 三 种 实现 方法 ， 其 时 间 复 杂 度 显然 取决 于 
最 长 和 最 短 列 表 的 相对 长 度 (L/L1)。 第 三 种 算法 基于 跳跃 式 搜 索 (exponential 或 galloping 
search) 。 思 想 是 从 一 个 缓存 位 置 之 后 以 指数 级 增加 步 长 ““ 跳 路 ”) 向 前 扫描 直至 跳 过 答案 。 
此 时 ， 由 最 后 两 步 构成 的 区 间 就 恰好 是 答案 所 在 的 区 间 ， 用 二 分 查找 即 可 。 图 2-5 给 出 了 这 
个 算法 的 细节 。 





next (t, current) = 
if lt = 0 or P[k] < current then 
return oo i 
if P,{1] > current then 
ct l 
return 已 [ci] 
if œ > 1 and P,[c: — 1] < current then 
low 一 ct 一 上 
else 
9 low — 1 
10 jump — 1 
11 high — low + jump 
12 while high < le and P,[high] < current do 
13 low — high 


区 人 





14 jump — 2- jump 

15 high — low + jump 

16 if high > h, then 

17 high — li 

18 ct + binarySearch (t, low, high, current) 


return Pler} 





图 2-5 通过 跳跃 式 搜索 实现 的 next 方法 。 算 法 第 6 一 9 行使 用 缓存 值 〈 如 果 有 ) 确定 low 的 初始 值 ， 
使 它 满足 P,Llow)<current, 第 12 一 17 行 以 指数 级 步 长 向 前 搜索 ， 直 到 找到 一 个 high É, 
满足 P,[jnagj] 之 current 。 最 后 结果 通过 二 分 查找 来 确定 〈 如 图 2-3 所 示 ) 
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图 2-6 展示 并 对 比 了 在 莎士比亚 文集 中 使 用 三 种 方法 调用 prev (“witch”, 745429) 的 
情形 。 使 用 二 分 查找 (图 2-6a) 将 访问 数组 7 次 ,一 开始 算法 从 位 置 1 和 92 的 区 间 开 始 二 
分 查找 (没有 在 图 中 显示 )， 依 次 是 位 置 46，23，34，28 和 31。 使 用 线性 扫描 (图 2-6b) 
则 从 初始 的 缓存 偏 移 位 置 1 开始 ， 将 访问 数组 34 次 ， 包 括 为 了 检查 边界 条 件 而 访问 的 次 数 
(没有 在 图 中 显示 ) 。 跳 路 式 搜索 (图 2-6c) 在 锁定 二 分 查找 范围 之 前 将 会 依次 访问 位 置 1， 
2, 4, 8, 16 和 32， 然 后 访问 位 置 24，28，30 和 31， 总 共 12 次 访问 位 置信 息 列 表 数 组 〈 包 
括 边界 条 件 检查 ) 。 在 线性 扫描 和 跳跃 式 搜 索 结 束 后 ， 缓 存 数 组 偏 移 都 被 更 新 为 31。 


a) ic el 

1 2 23 28 31 32 33 34 46 92 

1598 | 27555 pon | 745407 | 745429 | 745451 | 745467 | roars 
b) |l |- | | 

32 

1598 | 27555 e 745407 | 745429 | 745451 | 745467 TO n 

c) | l | [un l = 
33 
1598 me] | |v 745451 | 745467 wa] owe 


图 2-6 执行 prev (“witch”, 745429) 一 745407 三 种 方法 的 访问 模式 ，a) 二 分 查找 ，b) 线性 
扫 措 ，c) 跳跃 式 搜索 。b) 和 c) 算法 都 从 初始 缓存 位 置 1 开始 执行 


为 了 分 析 跳 跃 式 搜 索 的 时 间 复 杂 度 ， 我 们 回 过 头 来 看 看 当初 由 线性 扫描 算法 启发 得 到 的 
next 方法 调用 序列 。 令 ci 表示 在 处 理 给 定 词组 查找 过 程 中 为 词 项 上 第 7 次 调用 next 后 的 组 
存 值 。 

已 [cl] = next (t, v1) 
P,{c?] = next (t, v2) 


Pift] = next (t, vi) 
对 于 跳跃 式 搜索 来 说 ， 某 一 次 调用 next 所 需 的 工作 量 取 决 于 两 次 调用 之 间 缓 存 值 的 变 
化 大 小 。 假 设 缓存 值 变化 了 Ac， 那 么 一 次 调用 所 和 需 的 工作 量 为 O(log(Ac))。 这 样 ， 如 果 
我 们 定义 


Ac 一 cl 
Ac = -q 
Ac = d-d 


WAU 上 调用 next 所 需 总 工作 量 为 
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l l 
》 Ollog(Ac;)) =O (o (i |) (2-3) 


j=l j=l 


我 们 知道 一 组 非 负 数 的 算术 平均 数 总 是 大 于 它 的 几何 平均 数 : 


A 
Zhe > gi Ac; (2-4) 


并 且 ， 因 为 3) ,_,Acj <L, BHA 


II Ac; < (L/l)' (2-5) 
因此 ， 对 于 词 项 t 所 需 调 用 next (或 者 prev) 的 总 工作 量 为 
O (is (1 ss) co (log (CD ) (2-6) 
je 
= O(t-log(L/l)) (2-7) 


因此 查找 一 个 n 个 词 项 的 词组 ， 跳 跃 式 搜索 的 整体 时 间 复 杂 度 为 OCn el slog(L/l)). 
lL 时 ， 这 个 性 能 与 二 分 查找 接近 ; 当 aL 时 ， 与 线性 扫描 的 性 能 接近 。 如 果 还 考虑 这 个 
算法 的 自 适应 性 ， 根 据 类 似 的 推理 过 程 ， 可 以 得 到 时 间 复 杂 度 为 O(n "log(CL/e))。 

尽管 在 我 们 的 讨论 中 主要 关注 用 倒 排 索引 来 实现 词组 查找 ， 但 我 们 可 以 看 到 ， 对 于 其 他 
问题 ， 跳 路 式 搜索 也 是 适用 的 一 种 技术 。 本 书 的 第 二 部 分 将 这 些 思路 扩展 到 存储 在 磁盘 上 的 
数据 结构 上 。 


2.1.3 文档 和 其 他 元 素 


大 部 分 信息 检索 系统 和 算法 都 在 一 个 检索 的 基本 单位 上 进行 操作 ， 那 就 是 文档 。 正 如 在 
第 1 章 讨论 的 那样 ， 特 定 应 用 环境 的 需求 决定 了 文档 的 组 成 元 素 。 根 据 这 些 需求 ， 一 个 文档 
可 以 是 e-mail 邮件 、Web 页 面 、 新 闻 或 者 类 似 的 元 素 。 

在 很 多 应 用 环境 中 ， 一 个 文档 的 定义 是 相当 自然 的 。 然 而 ， 在 少数 环境 中 ， 例 如 一 组 书 
集 ， 一 个 自然 单元 〈 即 一 整 本 书 ) 有 时 会 太 大 了 ， 特 别 是 与 查询 相关 的 材料 只 局 限于 小 部 分 
文本 的 时 候 ， 不 能 返回 相对 合理 的 结果 。 其 实 ， 这 时 期 望 的 返回 结果 可 能 是 一 章 、 一 节 或 者 
是 一 小 节 ， 甚 至 是 几 页 。 

在 莎士比亚 戏剧 集 作为 文档 集 的 这 个 例子 中 ， 最 自然 的 做 法 可 能 是 将 每 一 部 戏剧 都 视 为 
一 个 文档 ,但 视 具体 的 环境 而 言 ， 每 一 幕 、 每 一 场 、 每 段 台 词 或 行 都 有 可 能 是 合适 的 检索 单 
元 。 举 一 个 简单 的 例子 ,假设 我 们 现在 对 台词 感 兴趣 ， 并 想 找 出 所 有 由 “first witch” 所 讲 
的 台词 。 . 

词组 “first witch” 第 一 次 出 现在 [745406，745407]j。 可 以 很 直接 地 找 出 所 有 包含 这 个 
词组 的 台词 段 。 使 用 我 们 定义 的 倒 排 索引 ADT 中 的 方法 ， 可 以 立即 确定 位 于 这 个 词组 之 前 

台词 段 的 开始 处 在 : 

prev(“(SPEECH)”, 745406) =745404 
这 段 台 词 结 束 于 ， 

next(“{/SPEECH)”, 745404) =745425 
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一 旦 我 们 确定 区 间 [745406，745407] 包含 在 区 间 [745404, 745425] 内 ， 就 可 以 知道 这 段 
台词 包含 这 个 词组 。 确 认 包 含 关 系 是 有 必要 的 ， 因 为 词组 不 一 定 总 是 作为 台词 的 一 部 分 出 
现 。 如 果 我 们 想 找 到 所 有 包含 “first witech” 的 台词 段 ， 可 以 在 词组 下 一 个 出 现 位 置 重复 以 
上 过 程 。 

仍然 有 一 个 小 问题 。 尽 管 我们 知道 这 个 词组 出 现在 台词 中 ， 但 我 们 不 知道 找到 的 “first 
witch” 是 否 代表 角色 。 因 为 这 个 词组 可 能 出 现在 某 句 台词 里 。 幸 运 的 是 ， 确 认 witch 是 一 
个 角色 只 需 再 调用 倒 排 索引 中 的 另外 两 个 方法 CRY 2. 4)。 实 际 上 上 上， 简单 地 调用 这 些 方 法 
足以 解决 很 多 结构 化 的 关系 ， 列 举 如 下 ， 

1) 任何 一 个 witch 所 说 的 台词 。 

2) 说 “To be or not to be” 的 那个 角色 。 

3) 提 到 witch 和 thunder 的 戏剧 的 名 称 。 

从 一 个 更 广义 的 上 下 文 来 讲 ， 这 种 可 以 指定 检索 单元 和 通过 简单 的 包含 关系 进行 过 滤 的 
灵活 方法 有 着 许多 的 应 用 。 在 Web 检索 系统 中 ， 简 单 的 过 滤 可 以 使 检索 结果 只 限于 某 个 域 
内 。 在 企业 搜索 中 ， 在 发 送 者 字段 中 运用 一 些 限制 可 以 使 我 们 选择 信息 只 由 某 个 特定 的 人 发 
送 。 在 文件 系统 检索 中 ， 运 用 结构 化 限制 能 够 确定 文件 的 权限 和 安全 限制 是 否 允 许 用 户 检索 
一 个 目录 。 

因为 在 信息 检索 应 用 中 往往 要 求 轻 量 级 结构 ， 因 此 我 们 采用 一 个 简单 统一 的 方法 来 支持 
这 种 结构 ， 即 直接 将 这 种 结构 合并 到 倒 排 索引 中 去 ， 使 得 它 成 为 倒 排 索引 所 提供 的 基础 功能 
之 一 。 上 面 的 例子 体现 了 我 们 的 方法 。 具 体 细节 会 在 第 5 章 中 介绍 ， 这 种 方法 也 是 实现 高 级 
搜索 的 基础 ， 而 高 级 搜索 广泛 应 用 于 如 法 律 检索 这 样 的 特殊 领域 的 信息 检索 中 。 这 种 方法 也 
可 用 于 8. 7 节 介 绍 的 不 同 字段 加 权 方 法 中 ， 也 就 是 认为 一 个 查询 词 项 出 现在 文档 标题 中 会 比 
出 现在 正文 里 能 体现 更 强 的 查询 相关 性 。 这 种 方法 也 是 XML 检索 中 所 需 的 复杂 索引 结构 的 
实现 基础 ( 见 第 16 章 )。 

尽管 有 些 环境 需要 轻 量 级 的 数据 结构 ， 但 是 大 多 数 信息 检索 研究 仍然 假定 文本 集 是 被 自 
然 划 分 为 文档 的 ， 这 也 是 检索 的 最 小 基本 单元 。 在 e-mail 检索 系统 中 ， 邮 件 便 是 这 个 基本 
的 检索 单元 。 在 文件 系统 中 ， 基 本 检索 单元 是 文件 ， 在 Web 中 则 是 网 页 。 除 了 是 一 个 检索 
的 自然 单元 之 外 ， 对 于 来 自 于 单 点 或 Web 网 站 的 所 有 文档 集 ， 文 档 这 种 形式 还 是 文本 的 自 
然 划 分 ， 从 而 允许 一 组 文集 可 被 划分 为 多 个 子 集 以 进行 并 行 检索 ， 或 重 排序 文档 以 提高 系统 
效率 。 

面向 文档 的 索引 

由 于 文档 检索 代表 了 一 个 如 此 重要 的 特殊 地 位 ， 因 此 常常 围绕 它 来 进行 索引 优化 。 为 了 
进行 优化 ， 文 档 集中 的 位 置 标号 分 为 两 个 部 分 ， 文档 编号 与 该 文档 内 的 偏 移 。 

我 们 用 标记 nim 来 表示 面向 文档 的 索引 内 的 位 置信 息 ， 其 中 ，2% 为 文档 标识 符 (或 
者 叫 文档 编号 Cdocid)), m AR (offset), A 2-7 展示 了 一 个 为 莎士比亚 戏剧 集 建立 的 
倒 排 索引 ， 这 里 ， 戏 剧 就 是 文档 。 我 们 沿用 之 前 介绍 的 倒 排 索引 ADT 中 的 方法 ,但 是 它们 
接受 文档 编号 ， 偏 移 作 为 参数 ， 并 也 以 这 种 方式 返回 。 

文档 内 的 偏 移 范围 从 1 到 该 文档 的 长 度 。 我 们 仍然 用 一 cc 和 cc 来 标记 文档 的 开始 和 结 
W, 忽略 写法 上 上 略微 的 区 别 ， 一 co 记 为 一 oo :一 co，co 记 为 ce :co。 当 词 项 的 位 置 表示 为 这 
种 形式 时 ， 便 可 使 用 文档 编号 作为 主键 来 比较 它们 的 值 。 


位 置信 息 列表 
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in 
i- 
thunder 
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o withe 
witchcraft 
| witches ° 


witching | | 
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<SPEAKER> : 
<SPeEci> : 


<(SPEECH> 














Lee 1:2205, 1:2268, 
hurlyburly —#|_9:30963, 22:293 
i H 


1: 17, 1:49, s 22: 277, 22: 281, -zu 37:36879 | 


sew 223269, 22:325, 22:360, +, 37:36886 








图 2-7 Wee KR ENR HHA, SOR 21 中 的 索引 。 


ARAL: 文档 编号 :文档 内 偏 移 


例如 ， 
first (“hurlyburly”) = 9:30963 


first (“witching”) = 8:25805 


next (“witch”, 22:288) = 22:310 


next (“hurlyburly”, 9:30963) = 22:293 


next ( “witch”, 37:10675) = 


nmn :72' 当 且 仅 当 


每 一 个 位 置 表 


last (“thunder”) = 37:12538 
last (“witching”) = 8:25805 


prev ( “witch” , 22:310) = 22:288 
prev (“hurlyburly”, 22:293) = 9:30963 
prev (“witch”, 1:1598) = 一 


(n<iV RF (n=n'Hm<m')) 


我 们 将 可 以 支持 面向 文档 检索 的 结构 优化 后 的 索引 称 为 模式 依赖 Cschema-dependent) 的 


倒 排 索引 ， 因 为 将 文本 划分 为 检索 单元 〈 即 它 


没有 优化 的 索引 称 为 模式 独立 (schema-independent) 的 倒 排 索 引 。 


的 模式 ) 的 同时 也 决定 了 其 倒 排 索引 的 建立 方式 。 
一 个 模式 独立 的 倒 


排 索引 人 允许 在 查询 阶段 才 指 定 文档 的 定义 ， 对 比 模式 依赖 的 倒 排 索引 而 言 ， 这 样 做 有 可 能 会 


带 来 额外 的 时 间 代 价 。 


为 了 能 够 支持 排名 算法 ， 模 式 依赖 的 倒 排 索引 通常 要 维护 各 种 面向 文档 的 统计 值 。 我 们 


使 用 如 下 符号 来 表示 这 些 统计 值 : 


N: 文档 频率 
Jia 词 频 

la 文档 长 度 
Lovg 平均 长 度 
N 文档 数 


在 文档 集中 包含 词 项 t 的 文档 数 
词 项 t 在 文档 d 中 出 现 的 次 数 
文档 中 包含 的 词 条 数 

整个 文档 集 的 文档 平均 长 度 
文档 集 的 总 文档 数 
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请 注意 : Zuec la 一 Ziev1 一 ec 和 1 一 1c/N。 

在 整个 莎士比亚 戏剧 集中 ，Lw 一 34363。 车 t= 二 “witch”，4d 二 22 (B d 二 Macbeth)， 
那么 ，N, 一 18，fi.a 一 52，La 一 26805。 在 模式 依赖 的 索引 中 ， 这 些 统计 值 道 常 作为 索引 数 
据 结构 的 组 成 部 分 来 维护 。 在 模式 独立 的 索引 中 ， 就 需要 在 查询 的 时 候 再 使 用 倒 排 索引 
ADT 中 的 方法 去 计算 了 CLAY 2. 5) 。 | 

为 了 帮助 我 们 为 文档 级 的 操作 写 出 算法 ， 我 们 为 倒 排 索引 ADT 定义 了 一 些 新 方法 。 首 
先是 能 将 位 置 分 割 为 文档 编号 和 偏 移 的 两 个 方法 : 

docid( position ) 返回 position 所 在 的 文档 编导 

offset( position ) 返回 position 在 文档 内 的 偏 移 
当 一 个 位 置信 息 表 示 成 Luv] 时 ， 这 两 个 方法 分 别 返回 u 和 wv。 这 些 方 法 同样 能 在 模式 
独立 的 索引 中 实现 ， 但 效率 会 略 低 些 。 

我 们 还 为 基本 的 倒 排 索引 方法 定义 了 面向 文档 的 版 本 ， 在 本 章 的 余下 部 分 会 使 用 到 : 


firstDoc( t) 返回 包含 词 项 t 的 第 一 个 文档 的 编号 
lastDoc(t) 返回 包含 词 项 t 的 最 后 一 个 文档 的 编号 


nextDoc(t, current) 返回 当前 (current) 文 档 后 包含 词 项 t 的 第 一 个 文档 的 编号 
prevDoc(t, current) 返回 当前 (current) 文 档 前 包含 词 项 t 的 最 后 一 个 文档 的 编号 
在 模式 依赖 的 索引 中 ， 很 多 位 置 会 有 相同 的 文档 编号 前 级 。 我 们 可 以 将 这 些 相同 的 文档 编号 
分 离 出 来 ， 产 生 如 下 形式 的 位 置 : 
(d, fi,a, (Pos s Pfea)) 
EP, (p0, +, Prha) 是 词 项 t 在 文档 4 中 出 现 fi,a 次 分 别 的 偏 移 位 置信 息 列表 。 除 了 能 
够 删除 不 必要 的 重复 信息 之 外 ， 这 种 标记 方法 更 好 地 反映 了 在 模式 依赖 索引 实现 过 程 中 ， 词 
项 的 位 置 实际 上 是 如 何 表 示 的 。 使 用 这 种 标记 ， 词 项 “witch” 的 位 置信 息 列表 可 以 表示 成 
如 下 形式 : 
(1,3, (1598, 27555, 31463)), =, (22, 52, (266, 288, ---)), =, (37, 1, (10675)) 
在 特殊 的 应 用 环境 中 ， 可 能 不 需要 在 倒 排 索 引 中 保存 位 置 偏 移 。 对 于 一 些 应 用 而 言 ， 基 
本 的 关键 字 搜 索 就 足够 了 ， 文 档 级 的 统计 信息 就 能 够 进行 有 效 的 排名 。 对 那些 最 简单 的 排名 
和 过 滤 技 术 来 说 ， 其 至 连 这 些 文档 级 的 统计 信息 都 不 需要 。 
根据 位 置信 息 列表 中 的 信息 类 型 ， 我 们 可 以 把 倒 排 索引 分 为 4 种 类 型 ， 前 3 种 属于 模式 
依赖 索引 : 
。 文档 编号 索引 (docid index) 是 最 简单 的 索引 类 型 。 对 于 每 个 词 项 ， 它 包含 词 项 所 
在 的 所 有 文档 的 标识 符 。 尽 管 它 很 简单 ， 但 这 种 索引 类 型 足以 支持 包括 基本 布尔 查 
询 (2. 2. 3 节 ) 和 称 为 协调 级 排名 (coordination level ranking) 的 简单 的 相关 性 排 
名 (练习 2.7) 在 内 的 过 滤 操 作 。 
。 在 词 频 索 引 Cfrequency index) 中 ， 倒 排列 表 中 的 每 一 项 包含 两 个 组 成 部 分 : 文档 
ID 和 词 频 。 词 频 索 引 中 的 每 一 个 位 置 形式 为 〈d ，fi,a)。 词 频 索 引 足 以 支持 许多 有 
效 的 排名 方法 (2.2.1 节 )， 但 是 却 不 能 完成 词组 查找 和 高 级 过 滤 。 
位 置 索 引 (positional index) 由 形 如 Cd, fras (Pis cts Pig 的 位 置 组 成 。 位 
置 索 引 支 持 所 有 需要 词 频 索 引 的 搜索 操作 。 此 外 ， 还 可 以 用 于 实现 词组 查询 ， 邻 近 
EHZ (2. 2.2 节 )， 以 及 其 他 需要 使 用 到 每 个 查询 词 项 在 文档 中 的 精确 位 置 的 查询 
类 型 ， 包 括 所 有 类 型 的 结构 化 查询 。 
© 模式 独立 索引 (schema-independent index) 没有 像 位 置 索 引 那 样 的 面向 文档 的 优化 ， 


但 二 者 有 时 可 以 互 换 。 
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表 2-1 莎士比亚 文集 的 《Romeo and Juliet》 第 一 场 第 一 幕 中 的 文本 片段 
文档 ID 文档 内 容 
1 Do you quarrel, sir? 
2 Quarrel sir! no, sir! 
3 If you do, sir, I am for you; I serve as good a man as you. 
4 No better, 
5 Well, sir. 


表 2-2 R21 中 词 项 的 位 置信 息 列表 。 在 每 一 个 例子 中 ， 在 实际 列表 的 起 始 处 添加 了 列表 的 长 度 





词 项 文档 编号 列表 位 置信 息 列表 模式 独立 信息 列表 
a 1; 3 ! (3, 1, (13)) 1; 21 

am 1; 3 1; (3, 1, (6)) 1; 14 

as 1; 3 1; He 2, (11, 15)) 2; 19, 23 

better 1; 4 1, (2)) 1; 26 

do 2; 1, 3 z ma 1, (1)), (3, 1, (3)) 2; 1, 11 

for 43 1; (3,1, (7)) . 1; 15 

good 1; 3 1; (3, 1, (12)) 1; 20 

i 1;3 1; (3, 2, (5, 9)) 2; 13, 17 

if 1;3 1; (3, 1, (1)) 1; 9 

man 1;3 1; (3, 1, (14)) 1; 22 

no 2; 2, 4 2; (2, 1, (3)), (4, 1, (1)) 2: 7, 25 

quarrel 2; 1, 2 2; {1, 1, (3)), (2, 1, {1)) 2; 3, 5 

serve 1;3 1; (3, 1, (10)) 1; 18 

sir A; 1, 2, 3,5 4; (1,1, (4)), (2, 2, (2, 4)), (3, 1, (4)), (5, 1, (2)) 5; 4, 6, 8, 12, 28 
well 1:5 1; (5,1, (1)) 1; 27 

you 2; 1,3 2; (1,1, (2)), (3, 3, (2, 8, 16)) 4; 2, 10, 16, 24 


R 2-1 是 莎士比亚 戏剧 《Romeo and Juliet》 的 一 个 片段 。 这 里 ， 


每 一 行 被 视 为 是 一 个 


文档 一 一 为 了 使 这 个 例子 长 度 合理 ， 我 们 去 掉 了 片段 中 的 标签 。 表 2-2 展示 了 这 个 片段 中 的 
所 有 词 项 对 应 的 位 置信 息 列表 ， 分 别 给 出 了 文档 编号 列表 、 位 置信 息 列 表 和 模式 独立 信息 列 


表 的 实例 。 


在 四 种 不 同 的 索引 类 型 中 ， 文 档 编号 索引 总 是 最 小 的 ， 因 为 它 包 含 最 少 的 信息 。 对 于 一 
般 文 档 集 而 言 ， 位 置 索引 和 模式 独立 索引 所 占用 空间 是 最 大 的 ， 是 词 频 索 引 的 2 一 5 倍 ， 是 


文档 编号 索引 的 3 一 7 倍 。 实 际 的 倍数 取决 于 文档 集中 文档 的 长 度 、 


词 项 分 布 的 偏 斜 情况 ， 


以 及 压缩 比率 。 表 2-3 展示 了 我 们 的 三 个 文档 样 例 集 在 这 四 种 不 同 的 索引 类 型 下 ， 索 引 所 占 


的 空间 大 小 。 


索引 压缩 会 对 索引 大 小 有 显著 的 影响 ， 在 第 6 章 会 详细 讨论 。 
表 2-3 压缩 前 后 ， 三 个 测试 文档 集 在 不 同 索引 类 型 下 的 索引 大 小 。 


在 每 一 个 例子 中 ， 第 一 个 数 表示 


索引 中 的 每 一 个 数据 简单 地 以 32 位 整数 保存 下 来 所 点 的 容量 ， 第 二 个 数 表 示 索 引 中 的 数据 采 
用 字 节 对 齐 的 编码 方法 压缩 保存 时 所 占 的 容量 


TREC GOV2 





莎士比亚 文集 
文档 编号 索引 n/a 
WARS | n/a 
位 置信 息 索 引 n/a 
模式 独立 索引 5.7 MB/2.7 MB 


578 MB/200 MB 
1110 MB/333 MB 
2255 MB/739 MB 
1190 MB/533 MB ° 


37 751 MB/12 412 MB 
73 593 MB/21 406 MB 
245 538 MB/78 819 MB 
173 854 MB/65 960 MB 
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在 面向 文档 的 索引 的 介绍 中 ,我们 大 大 扩展 了 在 本 章 开始 部 分 介绍 的 四 种 基本 方法 的 倒 
排 索引 的 相关 符号 。 表 2-4 给 出 了 符号 列表 ， 可 供 本 书后 面 内 容 作 方便 的 参考 。 


表 2-4 倒 排 索引 的 符号 列表 





基本 倒 排 索引 方法 
first( term) 返回 词 项 term 在 文档 集中 第 一 次 出 现 的 位 置 
last( term) 返回 词 项 term 在 文档 集中 最 后 一 次 出 现 的 位 置 
next(term, current) 返回 在 current 位 置 之 后 词 项 term 第 一 次 出 现 的 位 置 
prev(term, current) 返回 在 current 位 置 之 前 词 项 term 最 后 一 次 出 现 的 位 置 
等 价 于 以 上 基本 方法 的 面向 文档 的 方法 


firstDoc( term). lastDoc( term), nextDoc( term, current), lastDoc(term, current) 


模式 独立 索引 位 置 

















nim % 二 文档 编号 ,mm 一 偏 移 
docid( position ) 返回 position 所 在 的 文档 编号 
offset( position ) 返回 position 在 文档 内 的 偏 移 

文档 和 词 项 统计 符号 
li t 的 位 置信 息 列表 长 度 
N: 在 文档 集中 包含 词 项 上 的 文档 数 
fia 词 项 t 在 文档 d 中 出 现 的 次 数 
la 文档 中 包含 的 词 条 数 
Lag 整个 文档 集 的 文档 平均 长 度 
N 文档 集 的 总 文档 数 

位 置信 息 列 表 的 结构 
文档 编号 索引 disdaysdn, 
词 频 索 引 (disft.a, oder ftag) 
位 置 索引 Ci, Ferd, » (pistes Rfid 00 
模式 独立 索引 Pris Pat's Dit 

2.2 检索 与 排名 


， 基于 上 一 节 介 绍 的 数据 结构 ， 这 一 节 将 介绍 三 种 简单 的 检索 方法 。 前 两 种 方法 产生 排名 
的 结果 ， 根 据 文档 与 查询 的 相关 性 将 文档 集中 的 文档 进行 排序 。 第 三 种 检索 方法 在 文档 集 上 
应 用 布尔 过 滤 ， 找 出 与 谓词 匹配 的 文档 。 

排名 检索 的 查询 通常 用 词 项 向 量 (term vector) 来 表示 。 当 在 信息 检索 系统 中 输入 一 个 
查询 时 ， 通 过 空格 区 分 的 词 项 来 表达 这 个 向 量 。 例如， 输入 到 商业 Web 搜索 引擎 中 的 查询 

william shakespeare marriage 
也 许 是 希望 获得 莎 士 比 亚 与 安娜 ， 海 瑟 蔽 的 婚姻 情况 的 一 组 排名 网 页 。 为 了 使 查询 的 这 种 特 
性 更 加 明显 ， 我 们 将 词 项 向 量 明确 地 用 符号 《ti1，t。，…，ts〉 来 表示 。 前 面 的 那个 查询 
可 以 写成 

“william”, “shakespeare”, “marriage”? 

你 可 能 会 想 为 什么 把 查询 表达 成 向 量 而 不 是 集合 。 当 查询 中 存在 重复 词 项 或 词 项 出 现 的 
顺序 很 重要 的 时 候 ， 向 量 的 表达 方式 就 很 有 用 了 《如 果 我 们 假设 不 是 一 个 定 长 向 量 空间 ， 则 
列表 diso 也 可 以 )。 在 排名 的 公式 中 ， 我 们 使 用 符号 q 来 代表 词 项 t 出 现在 查询 中 的 


第 2 章 基础 技术 .37 


次 数 。 

布尔 谓词 由 标准 的 布尔 操作 符 CAND, OR, NOT) 构成 。 布 尔 查询 的 结果 集 由 那些 匹 
配 谓 词 的 文档 组 成 。 例 如 ， 布 尔 查询 : 

“william” AND “shakespeare”? AND NOT (“marlowe” OR “bacon”) 

是 要 找 出 那些 包含 词 项 “william” #1 “shakespeare” AKEE “marlowe” BK “bacon” fH 
文档 。 在 后 面 的 章节 里 ， 我 们 会 扩展 标准 的 布尔 操作 符 集 ， 使 得 我 们 能 够 对 结果 集 再 指定 一 
些 限制 条 件 。 

排名 检索 中 的 词 项 向 量 和 布尔 检索 中 的 谓词 在 传统 理解 上 有 一 个 关键 的 不 同 点 。 布 尔 请 
词 通常 被 理解 为 严格 的 过 滤器 一 一 如 果 文 档 不 能 够 匹配 这 个 谓词 ， 那 么 这 个 文档 就 不 能 作为 
结果 返回 。 相 反 ， 词 项 向 量 常 被 理解 为 描述 信息 需求 的 概要 。 文 档 不 需要 包含 所 有 的 查询 词 
项 才能 返回 。 例 如 ， 如 果 我 们 对 范 士 比 亚 的 生平 和 著作 感 兴趣 ， 我 们 可 能 会 试图 列举 尽 可 能 
多 的 相关 词 ， 从 而 构造 一 个 详细 的 《这 通常 也 是 很 景 人 的 ) 查询 请 求 来 描述 我 们 的 信息 需 
求 。 例 如 : 


william shakespeare stratford avon london plays sonnets poems tragedy comedy 





poet playwright players actor anne hathaway susanna hamnet judith folio othello 

hamlet macbeth king lear tempest romeo juliet julius caesar twelfth night antony 

cleopatra venus adonis willie hughe wriothesley henry... 
尽管 多 数 相关 网 页 会 包含 这 些 查询 词 中 的 若干 个 ， 但 很 少 会 全 部 都 包括 。 这 也 正 是 排名 检索 
方法 的 任务 ， 它 决定 哪些 没有 输入 的 词 项 会 对 最 终 文档 的 排序 结果 造成 影响 。 

布尔 检索 与 排名 检索 可 自然 地 结合 成 一 个 两 步 检索 过 程 。 首 先 用 布尔 谓词 限定 只 返回 文 
档 集 中 的 一 个 子 集 。 子 集中 的 文档 再 按 给 定 主 题 进 行 排名 。 商 业 Web 搜索 引擎 一 般 都 是 这 
样 的 两 步 检索 过 程 。 直 到 最 近 ， 大 部 分 的 系统 才 将 这 个 查询 

william shakespeare marriage 

解释 为 既是 一 个 词 项 的 布尔 连接 式 “william” AND “shakespeare” AND “mar- 
riage” 同时 也 是 一 个 可 用 于 排名 的 词 项 向 量 (“william”, “shakespeare”, “mar- 
riage”)。 对 于 一 个 将 被 作为 结果 返回 的 页 面 来 说 ， 每 一 个 词 项 都 必须 出 现在 页 面 文 本 内 容 
或 是 指向 该 页 面 的 锚 文本 中 。 

当 向 查询 中 输入 更 多 的 词 项 时 ， 由 此 过 滤 掉 那些 缺少 一 个 或 多 个 词 项 的 相关 页 面 对 系 统 
性 能 的 影响 有 好 有 坏 。 原 则 上 ， 深 加 词 项 可 以 更 好 地 表达 信息 需求 ， 因 此 对 性 能 提高 是 有 帮 
助 的 。 尽 管 一 些 商业 Web 搜索 引擎 现在 使 用 更 少 的 限制 过 滤器 来 使 排名 结果 中 可 以 出 现 更 
多 的 页 面 ， 但 基本 还 是 遵循 这 个 两 步 检索 过 程 。 这 些 系统 处 理 长 查询 的 能 力 很 差 ， 有 些 情 况 
下 只 能 返回 很 少 的 结果 甚至 是 没有 。 

为 了 确定 一 个 合适 的 文档 排名 ， 基 本 的 排名 检索 方法 会 比较 文档 之 间 的 一 些 简 单 特 征 。 
这 些 特征 中 最 重要 的 一 项 是 词 频 ， 记 ,。 ， 也 就 是 查询 词 项 t 出 现在 文档 d 中 的 次 数 。 给 定 两 
个 文档 dy 和 ds ， 如 果 一 个 查询 词 项 出 现在 di 的 次 数 比 出 现在 ds 的 次 数 要 多 ， 那 么 在 其 他 
条 件 一 样 的 情况 下 ， 就 有 可 能 表示 dj HE ds 前 面 。 对 于 查询 “william”, “shakespeare”, 
“marriage”》〉 来 说 ， 词 项 “marriage” 在 一 个 文档 中 的 重复 出 现 表 明 这 个 文档 比 那 些 仅 包含 
这 个 词 项 一 次 的 文档 排名 要 更 靠 前 。 

另外 一 个 很 重要 的 特征 就 是 词 项 邻近 记 (term proximity)。 如 果 查 询 词 项 在 文档 di 中 
出 现 的 位 置 比 在 文档 do 中 的 更 接近 ,那么 在 其 他 条 件 一 样 的 情况 下 ， 这 可 能 表明 di 应 该 
HEE d: 的 前 面 。 在 一 些 情况 中 ， 词 项 构成 了 词组 (如 “william shakespare”) 或 其 他 一 些 
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组 合 ， 但 是 紧凑 程度 的 重要 性 不 等 同 于 文档 中 是 否 包含 匹配 的 词组 。 例 如 ，“william”， 
“shakespeare” #1 “marriage” 同时 出 现在 下 面 这 样 一 个 片段 中 ， 

... while no direct evidence of the marriage of Anne Hathaway and William 
Shakespeare exists, the wedding is believed to have taken place in November of 
1582, while she was pregnant with his child... 

如 果 这 些 词 项 距离 很 远 ， 那 可 能 它们 根本 不 存在 什么 关系 。 

其 他 一 些 特征 也 能 帮助 我 们 在 各 项 竞争 因素 中 做 出 权衡 。 例 如 ， 一 个 有 生 余 字 的 文档 包 
T 4w “william”, 5x “shakespeare”, 2 次 “marriage”， 与 一 个 包含 3 次 “william”，2 
K “Shakespeare”, 7 次 “marriage” 的 五 百 字 的 文档 相 比 ， 是 排 在 后 面 还 是 前 面 呢 ? 这 些 特 
征 包括 与 平均 文档 长 度 〈1se) 相关 的 文档 长 度 〈1e)， 还 有 与 文档 集中 文档 总 数 ON) 相关 
的 包含 词 项 t 的 文档 数 CN,)。 

尽管 上 述 特 征 构成 了 多 数 检索 模型 和 排名 方法 的 核心 ， 包 括 本 章 讨论 的 那些 ， 但 是 其 他 
特征 同样 很 有 用 。 在 一 些 应 用 领域 ， 例 如 Web 搜索 ， 探 索 一 些 其 他 的 特征 对 于 一 个 搜索 引 
擎 的 成 功 有 至 关 重 要 的 作用 。 

一 个 重要 的 特征 是 文档 结构 。 例 如 ， 查 询 词 项 出 现在 文档 标题 还 是 出 现在 正文 应 区 别 对 
待 。 通 常 文档 之 间 的 关系 也 很 重要 ， 例 如 Web 文档 之 间 的 链接 。 在 Web 搜索 的 应 用 中 ， 分 
析 网 页 之 间 的 链接 使 我 们 可 以 为 它们 赋予 一 个 与 查询 无 关 的 序 或 静态 排名 (static rank), m 
这 将 是 影响 检索 的 一 个 因素 。 最 后 ， 当 有 一 群 人 定期 使 用 一 个 企业 内 部 或 Web 上 的 信息 检 
索 系统 时 ， 观 察 他 们 的 行为 习惯 也 有 助 于 提升 系统 性 能 。 例 如 ， 一 个 Web 站 点 总 是 比 其 他 
站 点 获得 更 多 的 点 击 率 ， 则 意味 着 用 户 更 偏好 这 个 站 点 一 一 在 其 他 条 件 都 一 样 的 情况 下 一 一 
可 就 此 改进 排名 的 结果 。 在 后 面 的 章节 将 详细 讨论 这 些 其 他 特征 。 


2.2.1 向 量 空间 模型 


向 量 空间 模型 (vector space model) 是 本 书 中 详细 介绍 的 信息 检索 模型 中 最 古老 和 最 有 
名 的 一 个 。 这 个 模型 始 于 20 世纪 60 年 代 ， 一 直 发 展 到 20 世纪 90 年 代 ， 由 Gerald Salton 
提出 并 最 终 发 表 出 来 ， 他 是 早期 信息 检索 研究 者 中 最 具 影 响 力 的 一 位 。 因 此 ， 向 量 空间 模型 
与 包括 排名 检索 在 内 的 许多 已 应 用 于 信息 检索 问题 中 的 领域 是 密切 相关 的 ， 包 括 文档 聚 类 与 
分 类 ， 并 且 会 一 直 发 挥 重要 作用 。 近 年 来 ， 向 量 空间 模型 很 大 程度 上 被 概率 模型 、 语 言 模 型 
和 机 器 学 习 方法 〈 见 本 书 第 三 部 分 ) 超过 了 。 然 而 ， 这 个 模型 底层 蕴含 的 简单 道理 以 及 它 悠 
久 的 历史 使 得 它 仍 然 是 介绍 排名 检索 的 理想 工具 。 
基本 思想 是 很 简单 的 。 查 询 和 文档 都 表示 为 高 维 空间 中 的 向 量 ， 而 每 个 分 量 对 应 文档 集 
词汇 表 中 的 一 个 词 项 。 这 种 查询 向 量 表示 方法 与 前 一 节 介 绍 的 词 项 向 量 表示 方法 相 比 是 有 差 
别 的 ， 词 项 向 量 里 只 包含 出 现在 查询 中 的 词 项 。 给 定 一 个 查询 向 量 和 一 个 文档 向 量 集 ， 每 一 
个 文档 对 应 一 个 文档 向 量 ， 我 们 通过 计算 查询 向 量 和 每 个 文档 向 量 之 间 的 夹 角 来 获得 它们 的 
相似 性 ， 以 此 对 文档 进行 排名 。 夹 角 越 小 ， 向 量 越 相似 。 图 2-8 使 用 只 包含 两 个 分 量 “A 和 
B) 的 向 量 解 释 了 这 一 基本 思想 。 
. 线性 代数 为 我 们 提供 了 一 个 很 简单 的 公式 来 计算 两 个 向 量 之 间 的 夹 角 9。 给 定 两 个 1V | 
HHE T= i, Ley s €y)» G= Yis Yoo o> yv) RITA: 
Be Y=|B| ， |FlcostM (2-8) 
Hp, t. g RAER (dot product) 〈 也 叫做 内 积 〈inner product) 或 数量 积 
(scalar product)) 。| 况 | 和 | 才 | 分 别 代 表 向 量 的 长 度 。 点 积 如 下 定义 ， 
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图 2-8 向 量 空 间 模型 中 的 文档 相似 度 。 分 别 计算 查询 向 量 本 和 两 个 文档 向 量 di， 
d: 之 间 的 夹 角 。 因 为 二， 因此 di 应 排 在 dz 前 面 


Wi 


= Dery (2-9) 
向 量 的 长 度 可 用 欧 几 里 得 距离 公式 来 计算 


[vl 
Ig} = 4) Soa? (2-10) 
i=1 


对 上 面 的 公式 做 蔡 换 ， 我 们 可 以 得 到 如 下 公式 ， 
os) = Z.F ian iyi 


“回国 (VERa) (YEE) (2-11) 


我 们 可 以 用 反 余弦 来 算出 9 的 大 小 ,但 是 由 于 余弦 值 随 着 角 0 单调 递减 ， 这 个 时 候 我 们 就 可 
以 停止 计算 了 ， 直 接 用 余弦 值 来 作为 相似 性 指标 。 如 果 O=, cos 二 1， 那么 这 两 个 向 量 
是 共 线 的 ， 也 就 是 说 这 两 个 向 量 极其 相似 。 如 果 6 一 90" ，cos(0) 一 0， 那 么 这 两 个 向 量 是 正 
交 的 ， 这 两 个 向 量 是 极 不 相似 的 。 


也 就 是 说 ， 给 定 一 个 文档 向 量 & 和 一 个 查询 向 量 g RAME sim(d ,可 ) 可 以 通过 下 
面 的 公式 来 计算 : 


一 


> d q 
sim(d,g) = =- = 
1) id la 


文档 向 量 和 查询 向 量 的 点 积 可 被 归 一 化 到 单位 长 度 。 假 定向 量 的 各 个 分 量 都 是 非 负 的 ， 那 么 
这 个 余弦 相似 度 (cosine similarity measure) 的 值 范围 为 0~1， 且 相似 度 越 高 ， 值 越 大 。 
自然 地 ， 哪 怕 是 一 个 适中 规模 的 文档 集 ， 向 量 空间 模型 也 会 产生 几 百 万 个 维度 的 向 量 。 
乍 看 之 下 ， 高 维 可 能 会 使 效率 变 低 ， 但 是 在 许多 情况 下 ， 查 询 向 量 是 很 稀 朴 的 ， 只 有 少数 几 
个 非 零 的 分 量 。 例 如 ， 与 〈“william”, “shakespeare”, “marriage”> 这 个 查询 相对 应 的 向 量 
仅 有 3 个 非 零 分 量 。 为 了 计算 这 个 向 量 的 长 度 ， 或 者 是 它 与 某 个 文档 向 量 的 点 积 ， 我 们 仅 需 
考虑 与 这 三 个 词 项 相对 应 的 分 量 。 另 一 方面 ， 文 档 中 可 能 会 包含 成 千 上 万 的 词 项 ， 而 文档 向 
量 中 的 每 一 个 非 零 向 量 就 与 一 个 词 项 一 一 对 应 。 然 而 ， 文 档 向 量 的 长 度 是 与 查询 无 关 的 。 那 
么 ,文档 向 量 的 长 度 就 可 以 预计 算 ， 与 其 他 的 文档 描述 信息 一 起 保存 到 词 频 索引 或 者 位 置 索 
引 中 ， 或 者 可 以 事先 将 文档 向 量 归 一 化 ， 用 归 一 化 之 后 的 向 量 来 取代 位 置信 息 列表 中 的 


(2-12) 
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词 频 。 

尽管 查询 请 求 通常 都 很 得， 但 是 在 向 量 空间 模型 中 ， 文 档 和 查询 请 求 被 同一 对 待 ， 这 使 
得 可 以 把 整 篇 文档 视 为 查询 。 公 式 〈2-12) 就 可 看 做 是 计算 两 篇 文档 相似 度 的 公式 。 把 文档 
视 为 查询 也 是 实现 商业 搜索 引擎 中 “相似 页 面 ” 和 “更 多 相似 页 面 ”功能 的 一 个 方法 。 

将 余弦 相似 度 作 为 一 种 排名 方法 ， 直 观 上 易 理解 且 自 然 又 简单 。 如 果 我 们 能 够 用 向 量 恰 
当地 表示 查询 和 文档 ， 那 么 可 以 根据 文档 与 查询 之 间 的 余弦 相似 度 来 进行 排名 。 将 文档 或 查 
询 表 示 为 向 量 时 ， 一 个 词 项 被 赋予 一 个 权重 (weight)， 代 表 了 对 应 的 向 量 分 量 的 值 。 纵 观 
向 量 空间 模型 的 发 展 历 史 , 已 经 提出 并 评价 了 很 多 的 权重 分 配 公式 。 除 少数 例外 ， 这 些 方法 
都 可 归纳 为 一 个 称 为 “TF-IDF 权重 ”(TF-IDF weight) 的 方法 系列 。 

当 给 一 个 文档 向 量 分 配 权重 时 ， 通 过 计算 一 个 词 频 (fi,a) 的 函数 和 一 个 逆 文 档 频 率 
C/N.) 的 函数 的 乘积 来 计算 TF-IDF 权重 。 当 为 一 个 查询 向 量 分 配 权重 时 ， 本 质 上 是 把 查 
询 也 看 做 是 一 个 小 文档 ， 查 询 中 词 项 的 词 频 (gq;) FA ERE. BOW A AY TE 和 
IDF 函数 来 计算 文档 向 量 和 查询 向 量 的 权重 〈 这 是 很 常见 的 ) 。 

TF-IDF 





词 频 的 函数 道 文档 频率 的 也 数 
我 们 强调 TF-IDF 权重 是 词 频 与 逆 文 档 频 率 的 函数 《function〉 的 乘积 。 很 常见 的 一 个 错误 
就 是 直接 使 用 了 ,4 来 代 指 词 频 分 量 ， 这 样 做 将 会 导致 效率 低下 。 

多 年 以 来 ， 已 提出 和 评价 了 大 量变 形 的 TF 和 IDF 函数 。IDF 函数 通常 将 文档 频率 和 文 
档 集 中 文档 总 数 ON) 关联 起 来 。IDF 函数 背后 的 含义 就 是 ， 出 现在 很 多 文档 中 的 词 项 比 出 
现在 少数 文档 中 的 词 项 的 权重 要 低 。 在 这 两 个 函数 中 ，IDF 函数 更 趋向 于 一 种 “标准 形式 ”， 

IDF=log(N/N;) (2-13) 
其 中 用 N: AUN 分 数 的 对 数 形式 作为 IDF 函数 的 变形 结构 。 

各 种 TF 函数 背后 的 含义 就 是 ， 在 同一 文档 中 多 次 出 现 的 词 项 比 少数 几 次 出 现 的 词 项 的 
权重 要 高 。 另 一 个 隐藏 在 TF 函数 定义 下 的 考虑 因素 是 : 它 的 值 不 必 随 着 fi,4 的 增长 而 线性 
增长 。 尽 管 出 现 两 次 的 词 项 比 出 现 一 次 的 应 赋予 更 高 的 权重 ， 但 也 不 必 是 两 倍 那么 多 。 以 下 
这 个 函数 满足 这 些 要 求 并 多 次 出 现在 Salton 后 期 的 著作 里 : 

log(fia)+1 如 果 六 ,>0 
TF 一 人 。 否则 (2-14) 
当 这 个 公式 用 于 查询 向 量 时 ， 通 常 使 用 词 项 t 在 查询 q 中 的 词 频 gq, 来 代替 了 ,a。 我 们 使 用 这 
个 公式 ， 连 同 公 式 (2-13)， 来 计算 下 面 例子 中 的 文档 和 查询 中 词 项 的 权重 。 

考虑 表 2-1 中 的 《Romeo and Juliet》 文 档 集 ， 以 及 表 2-2 给 出 的 相应 的 位 置信 息 列表 。 
因为 文档 集中 有 5 个 文档 ，“sir” 这 个 词 在 文档 集中 出 现 了 4 次， 因此 “sir” 的 IDF 权重 
值 为 : 

log(N/ fair) = log(5/4) = 0.32 
在 这 个 式 子 和 其 他 用 到 对 数 的 TF-IDF 计算 式 中 ， 对 数 的 底 通常 是 不 重要 的 。 必 要 时 ， 对 于 
该 例 和 书 中 的 其 他 例子 ， 我们 都 假定 底 为 2。 
因为 “sir” 在 文档 2 中 出 现 了 两 次 ， 那么 与 “sir” 对 应 的 分 量 的 TF-IDF 值 为 
(log(feir,2) + 1) - (log(N/fair)) = (log(2) + 1) - (log(5/4)) = 0.64 
为 其 他 分 量 和 其 他 文档 计算 TF-IDF 值 ， 可 以 得 出 下 面 的 向 量 ， 
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dı ~ (0.00, 0.00, 0.00, 0.00, 1.32, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 1.32, 0.00, 0.32, 0.00, 1.32) 
dz ~ (0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 1.32, 1.32, 0.00, 0.64, 0.00, 0.00) 
ds ~ (2.32, 2.32, 4.64, 0.00, 1.32, 2.32, 2.32, 4.64, 2.32, 2.32, 0.00, 0.00, 2.32, 0.32, 0.00, 3.42) 
ds ~ (0.00, 0.00, 0.00, 2.32, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 1.32, 0.00, 0.00, 0.00, 0.00, 0.00) 
ds ~ (0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.32, 2.32, 0.00) 
其 中 ， 分 量 的 顺序 是 按照 它们 对 应 的 词 项 的 字母 顺序 进行 排列 的 。 将 这 些 向 量 除 以 它们 的 长 
度 进行 归 一 化 ， 得 到 : 
dı /|di| ~ (0.00, 0.00, 0.00, 0.00, 0.57, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.57, 0.00, 0.14, 0.00, 0.57) 
dz /|dz| ~ (0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.67, 0.67, 0.00, 0.33, 0.00, 0.00) 
dz /\d3| = (0.24, 0.24, 0.48, 0.00, 0.14, 0.24, 0.24, 0.48, 0.24, 0.24, 0.00, 6.00, 0.24, 0.03, 0.00, 0.35) 
di/|ds| * (0.00, 0.00, 0.00, 0.87, 0.00, 0.00, 0:00, 0.00, 0.00, 0.00, 0.49, 0.00, 0.00, 0.00, 0.00, 0.00) 
ds /\ds| ~ (0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.14, 0.99, 0.00) 
如 果 我 们 想 根 据 查询 (“quarrelj”, “sir”) 对 这 五 个 文档 排名 ， 首 先 要 构造 查询 向 量 并 用 相 
应 的 长 度 做 归 一 化 : 


q/\q\ ~ (0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.97, 0.00, 0.24, 0.00, 0.00) 
计算 这 个 查询 向 量 和 每 一 个 文档 向 量 的 点 积 ， 得 到 以 下 余弦 相似 度 值 


文档 编号 1 2 3 4 5 
相似 度 值 0. 59 0. 73 0.01 0. 00 0. 03 








最 终 的 文档 排名 为 : 2，1，5，3，4。 

向 量 空间 模型 的 查询 处 理 过 程 是 很 直接 的 〈 如 图 2-9 所 示 )， 实 质 上 是 将 查询 词 项 的 位 
置信 息 列 表 执 行 合并 操作 。 文 档 编号 和 对 应 的 得 分 记录 在 一 个 数组 中 ， 每 次 计算 出 一 个 得 分 
就 进行 累加 。 每 次 计算 一 个 文档 。 在 while 循环 的 每 一 次 迭代 中 ,算法 计算 文档 .Q& 的 得 分 
(对 应 的 文档 向 量 为 d)， 并 将 文档 编号 及 得 分 保存 在 Result 数组 中 ， 然 后 确定 下 一 次 选 代 
要 处 理 的 文档 编号 。 这 个 算法 不 会 为 不 包含 任何 查询 词 项 的 文档 显 式 地 计算 得 分 ， 只 是 给 它 
们 隐 式 地 赋予 0 分。 最后， 根据 score 值 对 Result 排名 ， 并 返回 排 在 最 前 面 的 个 文档 。 

厂 





rankCosine {({(t1,..., tn), K) = 
1 jol 
2 de minicicn nextDoc (ti, 一 co) 
3 while d < œ do 

4 Result|j|.docid — d 

5 Result[j].score — a ` 商 
6 

7 

8 

9 





j= j+l 

d — minigign nextDoc (ti, d) 
sort Result by score 
return Result(1..k] 





L 
图 2-9 向 量 空间 模型 中 的 排名 检索 查询 处 理 过 程 。 给 定 词 项 向 量 〈 亡 os th) GER 
向 量 立 对 应 )， 该 函数 返回 前 k 个 文档 


对 于 许多 检索 应 用 而 言 ， 是 不 需要 得 到 所 有 文档 的 排名 列表 的 。 相 反 ， 我 们 返回 最 多 上 
个 文档 ， 这 里 的 取 值 根据 应 用 环境 的 需要 而 定 。 例 如 ，Web 搜索 引擎 在 第 一 页 仅 可 能 返 
回 前 二 10 或 者 20 个 结果 。 当 只 需 返 回 前 〖 个 文档 时 ， 为 每 个 包含 任何 查询 词 项 的 文档 ， 
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有 些 甚至 只 包含 权重 很 低 的 单个 词 项 ， 都 计算 得 分 是 十 分 低 效 的 。 这 个 缺点 促使 了 很 多 适用 
于 向 量 空间 模型 和 其 他 信息 检索 模型 的 改进 查询 处 理 方法 的 提出 。 第 5 章 将 讨论 这 些 查询 处 
理 方 法 。 

在 本 节 一 开始 还 列 出 了 其 他 的 一 些 文档 特征 一 一 词 频 、 词 项 邻近 度 、 文 档 频 率 、 文 档 长 
度 一 一 向 量 空间 模型 仅仅 显 式 地 用 到 了 词 频 和 文档 频率 。 当 把 向 量 归 一 化 到 单位 长 度 时 ， 也 
隐 式 地 用 到 了 文档 长 度 。 当 一 个 文档 长 度 是 另外 一 个 文档 长 度 的 两 倍 ， 但 以 相同 的 比重 包含 
相同 的 词 项 时 ， 它 们 的 归 一 化 向 量 是 一 样 的。 向 量 空间 模型 没有 考虑 词 项 邻近 度 。 这 一 特点 
使 得 它 《〈 以 及 其 他 具有 相同 特点 的 信息 检索 模型 ) 被 形象 地 称 为 “ 词 绕 ”(bag of words) 模 
型 〈 即 对 于 文本 ， 这 种 模型 忽略 其 词 序 、 语 法 、 句 法 ， 将 其 仅仅 看 做 是 一 个 词 项 的 集合 ， 就 
像 装 满 词 项 的 袋子 一 样 一 一 译 者 注 )。 

这 一 节 介绍 到 的 向 量 空间 模型 的 版 本 基于 Salton 后 期 著作 中 关于 向 量 空间 模型 的 介绍 。 
实际 上 ， 为 了 提高 效率 ， 向 量 空间 模型 的 实现 通常 忽略 长 度 归 一 化 和 文档 向 量 中 的 IDF 因 
F. MH, 余弦 相似 度 中 内 在 的 欧 几 里 得 长 度 归 一 化 已 被 证 明 不 适用 于 处 理 那 些 既 包含 长 文 
档 又 包含 短文 档 的 文档 集 ， 需 要 进行 大 量 的 调整 来 支持 这 些 文档 集 的 处 理 。2. 3 节 将 会 评价 
这 些 方 法 的 效率 和 有 效 性 。 

向 量 空间 模型 可 能 由 于 其 完全 启发 式 的 性 质 而 遭 到 批判 。 除 了 直观 、 简 单 的 数学 形式 和 
2. 3 节 中 的 实验 ， 我 们 不 再 为 其 进行 更 多 的 辩护 。 后 面 章节 (第 8、 第 9 章 ) 介绍 到 的 信息 
检索 模型 具有 更 坚实 的 理论 框架 作为 支撑 。 因 此 ， 这 些 模型 适应 性 更 强 ， 也 更 容易 扩展 ， 以 
便 可 以 适应 更 多 的 文档 特征 。 l 


2.2.2 ”邻近 度 排名 


上 一 节 介 绍 的 向 量 空间 排名 方法 很 明显 地 只 取决 于 TF 和 IDF。 相 反 ， 这 一 节 介 绍 的 方 
法 明显 依赖 词 项 邻近 度 。 这 种 方法 隐 式 地 使 用 了 词 频 ， 而 文档 频率 、 文 档 长 度 和 其 他 一 些 文 
档 特 征 在 这 里 不 起 任何 作用 。 

当 词 项 向 量 (1 ，t,，…，t。〉 中 的 各 个 分 量 在 一 个 文档 中 出 现 的 位 置 较为 接近 ， 而 
在 其 他 文档 出 现 的 位 置 相隔 其 远 时 ， 则 表明 该 文档 更 有 可 能 是 相关 的 。 给 定 一 个 词 项 向 量 
《ti1，t;，…，t,)， 我 们 定义 向 量 的 一 个 覆盖 (cover) AXA Lu, vl, EBAT H 
有 的 词 项 ， 并 且 不 存在 一 个 更 小 的 区 间 [ww ，V]，4 志 Ww' 亿 VV' 信 Vv， 也 包含 了 所 有 的 词 项 。 
在 2.1.2 节 介 绍 到 候选 词组 中 要 求 所 有 词 项 必须 按 顺序 出 现 ， 这 是 覆盖 的 一 个 特例 。 

ER 2-1 中 的 文档 集中 ， 区 间 [1 :2, 1:4], [3:2, 3:4], [3:4, 3:8] 都 是 词 项 向 
量 〈“you”, “sir WHR. RAKE [3 :4，3 :16] 也 包含 这 两 个 词 项 ， 但 它 不 是 一 个 覆 
%, AWEMST [3 :4，3 :8] 这 个 覆盖 。 同 理 ， 词 项 向 量 《“quarrel”,， “si 存在 两 个 
覆盖 : [1 :3, 1:4] 和 [2:1, 2:2], 

注意 到 覆盖 有 可 能 会 交 释 。 但 是 ， 匹 配 词 项 t; 符号 最 多 出 现在 %*L 个 覆盖 中 ,这 里 / 
是 向 量 中 词 项 的 最 短 位 置信 息 列 表 长 度 。 为 了 明白 词 项 向 量 《ti，t:，…，twm〉 最 多 存在 
nel 个 覆盖 ， 考 虑 这 样 一 个 文档 集 ， 所 有 的 词 项 以 相同 的 顺序 出 现 同样 多 次 : 

tt 

我 们 将 为 何 有 不 超过 nl 个 覆盖 的 证 明 留 到 练习 2. 8。 一 个 新 的 覆盖 开始 于 向 量 中 一 
个 词 项 的 出 现 位 置 。 因 此 一 个 词 项 向 量 的 覆盖 总 数 受 nl 的 限制 ， 而 不 是 依赖 于 最 长 位 置 
信息 列表 工 的 长 度 。 在 讨论 邻近 度 排名 的 时 候 ， 我 们 定义 « 为 文档 集中 词 项 向 量 的 覆盖 数 ， 
Brn ol。 | 
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也 许 这 并 不 奇怪 ， 计 算 覆 盖 的 算法 与 图 2-2 介绍 的 词组 查找 算法 很 相似 。 图 2-10 的 函 
数 能 够 计算 出 在 给 定位 置 之 后 下 一 个 覆盖 出 现 的 位 置 。 第 1 行 ， 算 法 确定 最 小 的 位 置 v， 使 
得 区 间 [ position, v] 包含 向 量 中 的 所 有 词 
项 。% 之 后 开始 的 获 盖 不 可 能 时 于 这 个 位 置 结 
R. B44, REY v 结尾 的 区 间 ， 调 
ou 使 得 不 存在 其 他 更 小 的 以 vv 结尾 的 区 间 也 
包含 所 有 词 项 。 第 5 行 检 查 u 和 ?7 是 否 位 于 同 
一 个 文档 。 如 果 不 是 ， 将 递归 调用 nextCover。 

最 后 的 检查 是 必要 的 ， 因 为 覆盖 最 终 会 影 
响 一 个 文档 的 排名 得 分 。 技 术 上 来 说 ， 区 间 
[1:4, 2:1] 是 词 项 向 量 (“quarrel”, “sir”) 
一 个 完全 可 以 接受 的 覆盖 。 但 在 模式 依赖 索引 
中 ， 一 个 跨 文 档 的 覆盖 不 太 有 实际 意义 。 

排名 基于 两 个 假设 (1) 覆盖 越 短 ， 包 含 覆 盖 的 文档 内 容 越 可 能 是 相关 的 ; (2) 一 个 文 
档 包含 的 覆盖 越 多 ， 就 越 有 可 能 是 相关 的 。 这 些 假设 来 源 于 直觉 。 第 一 个 假设 暗示 了 一 个 独 
立 覆 盖 的 得 分 基于 它 的 长 度 。 第 二 个 假设 暗示 一 个 文档 的 得 分 可 以 通过 累加 文档 中 包含 的 独 
立 覆盖 的 得 分 来 得 到 。 结 合 这 些 想法 ， 我 们 用 如 下 公式 对 一 个 包含 覆盖 Cu, vil, Lue, 
vel, Luss v3 | 的 文档 d 计算 得 分 : 

ai) 


score (d) =). (<r (2-15) 


图 2-11 展示 了 采用 邻近 度 排 名 时 的 查询 处 理 过 程 。 第 5 一 13 行 ， 调 用 nextCover 函数 
来 获取 覆盖 ， 并 在 while 循环 中 逐个 处 理 。 在 第 13 行 ， 覆盖 数 & 恰好 等 于 nextCover 的 调 
用 次 数 。 当 跨越 了 一 个 文档 的 边界 时 (第 6 行 )， 得 分 和 文档 编号 就 存 人 记录 数组 Result 中 
(第 8 一 9 行 )。 当 所 有 的 覆盖 都 被 处 理 之 后 ， 最 后 一 个 文档 的 信息 存 人 数组 (第 14~17 行 )， 


nextCover ((ti,..., tn), position) = 

v — mMaxicicn(next(t:, position)) 

if v = oo then 
return [co, co] 

u — minicicn(prev(ti, v + 1)) 

if docid(u) = docid(v) then 
return [u,v] 

else 
return nextCover((t1,.-., in), u) 


图 2-10 ”为 词 项 向 量 (t1,…,t;) 计 算 给 定位 置 之 
后 下 一 个 覆盖 出 现 的 位 置 的 隆 数 


mm- 


根据 得 分 排列 数组 (第 18 行 )， 返 回 排 在 最 前 面 的 个 文档 (第 19 行 )。 


当 rankProximity 函数 调用 nextCover 函数 
时 ， 传 进 nextCover 函数 的 第 二 参数 的 位 置信 息 


rankProximity ((t1,...,tn), K) = 


[u, v] — nextCover( (to,t1,..., tn}, —00) 


是 严格 递增 的 。 同 理 ， 当 nextCover MAGESA 2 e O 

用 next 和 prev 方法 时 ，next 和 prev 的 第 二 参数 ‘ a woo do 

也 是 严格 递增 的 。 正 如 2. 2.1 节 中 词组 查找 算法 。 if d < docid(u) then 

那样 ， 我们 利用 这 个 性 质 用 跳跃 式 搜索 来 实现 Roll docid ed 

next 和 prev 方法 。 根据 同样 地 推理 ， 当 使 用 跳 9 Result [j].score — score 

路 式 搜索 时 ，rankProximity HABANA ee 

FEW O(n? l slog(L/D). 12 score — score + 1/(v—u +1) 
注意 ， 这 个 时 间 复 杂 度 是 词 项 向 量 大 小 % 的 ooo 

二 次 方 ， 因 为 在 最 坏 情 况 下 会 有 O(n DTH 15 了 一 7+1 

盖 。 幸 运 的 是 ， 这 个 算法 的 自 适应 性 使 得 问题 复 Re core 

REDT, H OC we logCL/e )， wort Res by sore 
对 于 得 分 非 0 的 文档 ， 它 必须 包含 所 有 的 词 

项 。 鉴 于 此 ， 邻 近 度 排名 与 许多 商业 搜索 引擎 是 图 2-11 邻近 度 排名 查询 处 理 过 程 。 图 2-10 的 


类 似 的 。 当 根据 查询 “you”, “sir”) 对 表 2-1 


nextCover 函数 用 来 获取 每 一 个 履 盖 
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的 文档 集 进行 排名 时 ， 邻 近 度 排名 赋予 文档 1 的 得 分 是 0.33， 文 档 3 是 0. 53， 番 下 的 文档 
都 为 0。 

HEHA “quarrel”, “sir”) 时， 为 同样 地 文档 集 排 名 ， 邻 近 度 排名 方法 为 文档 1 和 
文档 2 赋予 的 得 分 为 0. 50， 文 档 3 到 文档 5 都 为 0。 与 余弦 相似 度 不 一 样 ， 文 档 2 中 “sir” 
的 第 二 次 出 现 并 没有 使 文档 得 分 增加 。 单 个 词 项 的 词 频 不 是 邻近 度 排名 要 考虑 的 因素 ; 相 
反 ， 词 项 共同 出 现 的 频率 及 邻近 度 才 是 影响 因素 。 一 个 文档 虽然 包含 了 所 有 词 项 的 许多 匹配 
但 仅 包 含 一 个 覆盖 的 情况 是 有 可 能 的 ， 也 就 是 查询 词 项 被 分 散 到 了 文档 的 各 个 地 方 。 


2.23 布尔 检索 


除了 在 Web 搜索 引擎 中 会 隐 式 地 用 到 布尔 过 滤 ， 在 一 些 特别 的 应 用 领域 中 ， 如 数字 图 
书馆 和 法 律 领 域内 的 搜索 ， 显 式 支 持 布尔 查询 是 很 重要 的 。 与 排名 检索 相 比 ， 布 尔 检索 返回 
的 结果 是 文档 集合 而 不 是 有 序列 表 。 在 布尔 检索 模型 中 ， 词 项 t 用 于 指定 那些 包含 它 的 文 
档 。 标 准 的 布尔 操作 符 CAND, OR 和 NOT) 用 于 构建 布尔 查询 ， 因 此 布尔 查询 就 可 以 表 
达 为 如 下 集合 上 的 操作 : 

AANDB A 和 B 的 交集 (A 门 B) 

AORB ”A 和 B 的 并 集 (AUB) 

NOT A 文档 集中 A 的 补 集 CA) 

其 中 ，A 和 B 可 以 是 词 项 或 其 他 的 布尔 查询 。 例 如 ， 在 表 2-1 的 文档 集 上 ， 查 询 : 
(“quarrel” OR “sir”) AND “you” 
就 指定 了 集合 (1, 3), MEM 
(“quarrel” OR “sir”) AND NOT “you” 
指定 了 集合 (2, 5}. 

我 们 用 来 解决 布尔 查询 的 算法 是 图 2-2 词组 查找 算法 和 图 2-10 覆盖 查找 算法 的 一 个 变 
形 。 算 法 查找 出 符合 布尔 查询 的 候选 结果 (candidate solution) ， 其 中 每 个 候选 结果 都 由 一 
系列 满足 这 个 布尔 查询 的 文档 组 成 ， 并 且 使 得 没有 一 个 更 小 的 文档 集合 也 满足 这 个 查询 。 当 
一 个 候选 结果 系列 的 长 度 为 1 时 ， 这 个 文档 满足 查询 且 应 该 包含 在 结果 集中 。 

相同 的 操作 方法 在 之 前 的 两 个 算法 中 做 了 介绍 。 在 词组 查找 算法 中 ， 第 1 一 6 行 确定 了 
一 个 范围 ， 包 含 了 所 有 按 顺 序 出 现 的 词 项 ， 并 且 使 得 不 存在 一 个 更 小 的 范围 满足 这 个 条 件 。 
在 覆盖 查找 算法 中 ， 第 1~4 行 同样 确定 所 有 的 词 项 并 使 其 尽 可 能 地 靠近 。 两 个 算法 中 都 运 
用 了 一 个 附加 的 限制 。 

为 了 简化 布尔 搜索 算法 的 定义 ,我 们 在 布尔 查询 的 操作 上 定义 两 个 函数 ， 扩 展 了 模式 依 
赖 倒 排 索 引 中 的 nextDoc 和 prevDoc 方法。 

docRight(Q@ ,2) 一 一 从 文档 u 后 找到 满足 Q 的 第 一 个 候选 结果 的 结束 文档 

docLeft(Q, v) 在 文档 v 前 找到 满足 Q 的 最 后 一 个 候选 结果 的 起 始 文档 
对 于 词 项 ， 我 们 定义 : 








docRight(t,u)=next Doc(t, u) 
docLeft(t, v)= prev Doc (t, v) 
对 于 AND 和 OR 操作 ， 我 们 定义 : 
docRight(A AND B,u)=max(docRight(A,),docRight(B,w)) 
docLeft(A AND B, v)=min(docLeft(A, v) ,docLeft(B, v)) 
docRight(A OR B,u)=min(docRight(A, wu) ,docRight(B, u)) 
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docLeftCAOR B, v)==max(docLeft(A, v) .docLeft(B, v)) 
为 了 确定 一 个 给 定 查 询 的 结果 ， 这 些 定义 可 以 递归 使 用 ， 例 如 : 
docRight((“quarrel” OR “sir”) AND “you”, 1) 
max(docRight (“quarrel” OR “sir”, 1), docRight (“you”, 1)) 
max(min(docRight( “quarrel”, 1), docRight (“sir”, 1)), nextDoc( “you”, 1)) 
max(min(nextDoc( “quarrel”, 1), nextDoc (“sir”, 1}), 3) 
max(min(2, 2), 3) 
=3 
docLeft((“quarrel” OR “sir”) AND “you”, 4) 
= min(docLeft(“quarrel” OR “sir”, 4), docLeft ( “you” ,4)) 
= min(max(docLeft (“quarrel”, 4), docLeft (“sir”, 4)), prevDoc( “you”, 4)) 
= min(max(prevDoc (“quarrel”, 4), prevDoc (“sir”, 4)), 3) 
= min({max(2, 3), 3) 
=3 
NOT 操作 符 的 定义 更 复杂 些 ， 在 给 出 主要 的 算法 后 会 介绍 。 
图 2-12 给 出 了 nextSolution 函数 ， 在 给 定位 置 后 确定 布尔 查询 的 下 一 个 结果 。 这 个 琐 
数 调 用 docRight 和 docLeft 来 获得 候选 结果 。 在 第 4 行 之 后 ， 区 间 Cu, vl 包含 了 这 个 候 
选 结果 。 如 果 候 选 结果 只 包含 一 个 文档 ， 那 么 就 返回 。 否 则 ， 这 个 函数 被 递归 调用 。 基 于 这 
个 函数 ， 布 尔 查 询 Q 的 所 有 候选 结果 可 按 如 下 过 程 产生 : 


Hh th i at 






nextSolution (Q, position) = 
v 一 docRight(Q, position) 
if v = co then 
return co 
u + docLeft(Q,v + 1) 
if u = v then 
return u 
else 
|s return nextSolution (Q, v) 


2-12 在 给 定位 置 后 确定 布尔 查询 Q 的 下 一 个 候选 结果 的 函数 。 函 数 next- 


Solution 调用 docRight 和 docLeft 来 获得 候选 结果 。 依 赖 于 查询 的 结 
构 ， 这 些 函 数 可 能 会 被 递归 调用 





四 局 





Ue 一 09 
while u < co do 
u — nextSolution(Q, u) 
if u < œ then 
report docid(u) 

使 用 nextDoc 和 prevDoc 的 跳 路 式 搜 索 实 现 ， 这 个 算法 的 时 间 复 杂 度 为 OCn i elog(L/1)), 
其 中 n 为 查询 中 词 项 的 个 数 。 如 果 使 用 了 文档 编号 索引 或 词 频 索 引 ， 并 且 索 引 中 没有 记录 
位 置信 息 ，! AL 分 别 为 由 文档 数目 度量 的 查询 中 词 项 的 最 短 和 最 长 位 置信 息 列 表 长 度 。 这 
个 算法 的 时 间 复 杂 度 的 推理 过 程 与 词组 查找 算法 和 邻近 度 排名 算法 的 推理 过 程 相似 。 当 考虑 
候选 结果 数 & 时 ， 体 现 了 算法 的 自 适应 性 ， 时 间 复 杂 度 变 为 O(n +k slog(L/k)). HEM, A 
法 第 4 行 对 docLeft 方法 的 调用 是 可 以 去 掉 的 〈 见 练习 2. 9) ， 但 是 为 了 帮助 我 们 分 析 算 法 的 
复杂 度 ， 我 们 还 是 给 出 了 关于 候选 结果 的 明确 定义 。 i 

在 docRight 和 docLeft 方法 的 定义 中 ， 我 们 忽略 了 NOT 操作 符 。 实 际 上 ， 不 必 为 了 实 
M NOT 操作 而 去 专门 实现 这 些 函 数 的 一 般 化 版 本 。 因 此 ， 德 摩根 定律 可 用 于 变换 查询 ， 将 
任何 NOT 操作 内 移 ， 直 至 它 直 接 与 查询 词 项 相连 : 
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NOTCA AND B)=NOT A OR NOT B 
NOTCA OR B)=NOT A AND NOT B 
例如 ， 查 询 .: 
“william” AND “shakespeare” AND NOT(“marlowe” OR “bacon”) 
可 以 转换 为 : 
“william” AND “shakespeare” AND (NOT “marlowe” AND NOT “bacon”) 
这 个 转换 没有 改变 查询 中 AND 和 OR 操作 符 的 数量 ， 因 些 不 会 改变 查询 中 词 项 的 数量 
(mn)。 在 适当 的 使 用 德 摩根 定律 之 后 ， 我 们 得 到 只 包含 NOT t 这 样 形式 的 查询 ， 其 中 t 是 
一 个 词 项 。 为 了 能 够 处 理 包含 这 种 形式 的 表达 式 的 查询 ， 我 们 需要 docRight 和 docLeft 的 相 
应 定义 。 可 以 利用 nextDoc 和 prevDoc 来 给 出 这 些 定义 。 
docRight(NOT ¢,u) = 
u' — nextDoc(t, u) 
while u’ = u + 1 do 
uu 
u — nextDoc(t, u) 
return u + 1 
然而 ， 这 种 方法 效率 可 能 很 低 。 当 包含 词 项 t 的 文档 不 多 时 ， 这 个 定义 还 是 可 以 获得 可 
接受 的 性 能 的 ， 但 是 当 有 很 多 文档 包含 词 项 t 时 ， 性 能 就 变 得 很 难 接 受 了 ， 此 时 几乎 就 是 线 
性 扫描 位 置信 息 列 表 了 ， 这 是 我 们 使 用 跳跃 式 搜 索 可 以 避免 的 。 并 且 ，docLeftC(NOT t, v) 
的 等 价 实现 需要 在 位 置信 息 列表 中 进行 反 向 扫描 (backward)， 违背 了 跳跃 式 搜索 所 需 条 
件 ， 因 此 无 法 利用 其 优点 。 
因此 ， 我 们 直接 在 2. 1. 2 节 介 绍 的 数据 结构 上 实现 NOT 操作 符 ， 用 nextDoc(NOT t, 

&%) 和 prevDoc(NOT to) 来 扩展 倒 排 索引 支持 的 方法 。 我 们 将 细节 留 到 练习 2. 5。 


2.3 评价 

我 们 对 余弦 相似 度 和 邻近 度 排名 方法 的 陈述 大 部 分 依赖 于 直觉 。 我 们 用 直觉 来 说 明 这 些 
做 法 都 是 正确 的 一 一 将 文档 和 查询 表示 为 向 量 ， 通 过 比较 向 量 之 间 的 夹 角 来 决定 相似 度 ， 当 
词 项 出 现 得 更 为 频繁 或 更 靠近 时 我 们 对 其 赋予 更 高 的 权重 。 只 有 当 这 些 方法 在 实践 中 是 有 效 
的 时 候 ， 这 种 对 直觉 的 依赖 才 是 可 接受 的 。 并 且 ， 检 索 算 法 的 实现 必须 在 用 户 认为 合理 的 时 
间 内 对 典型 查询 计算 出 结果 ， 还 必须 在 有 效 性 和 效率 之 间 达 到 平衡 。 比 起 一 个 立即 就 能 得 到 
的 结果 ， 用 户 不 会 为 了 得 到 更 好 一 点 的 结果 而 去 等 更 长 的 时 间 一 一 哪怕 只 是 几 分 儿 秒 。 





2.3.1 查 全 率 和 查 准 率 


检索 方法 的 有 效 性 度量 取决 于 人 们 对 相关 性 的 评估 。 有 些 情况 下 ， 这 些 评 估 隐 式 地 体现 
在 用 户 的 行为 中 。 例 如 ， 用 户 点 击 了 一 个 查询 结果 ， 却 又 很 快 退 了 出 来 ， 我 们 由 此 可 推测 这 
个 结果 并 不 好 。 然 而 ， 许 多 公开 发 表 的 信息 检索 实验 都 是 为 了 实验 目的 而 进行 的 人 工 评 佑 ， 
例如 第 1 章 介绍 的 TREC 实验 。 这 些 评 估 通 常 是 二 值 的 一 一 评估 者 阅读 文档 并 判断 它 与 某 
个 主题 是 相关 〈relevant) 或 不 相关 (not relevant), TREC 实验 通常 就 是 使 用 这 样 的 二 值 评 
判 ， 一 个 文档 只 要 有 任何 部 分 与 主题 相关 ， 则 可 判断 它 是 相关 的 。 

例如 ， 给 定 TREC 主题 426 描述 的 信息 需求 《图 1-8)， 用 户 可 以 构造 以 下 布尔 查询 

((“law” AND “enforcement”) OR “police”) AND (“dog” OR “dogs”). 
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在 TREC45 文档 集 上 执行 这 个 查询 会 产生 881 个 文档 , 约 占 拥有 50 万 文档 的 文档 集 
Hy 0.17%, 

为 了 确定 类 似 这 样 的 一 个 布尔 查询 的 有 效 性 ， 我 们 比较 两 个 集合 : CL) 查询 返回 的 文档 
集 Res, (2) 文档 集中 与 这 个 主题 相关 的 文档 子 集 Rel。 根 据 这 两 个 集合 ， 我 们 计算 两 个 标 
准 有 效 性 指标 ， 查 全 率 (recall) MBA (precision), 


查 全 率 一 人 | C (2-16) 


查 准 率 = Rel es (2-17) 


概括 地 说 ， 查 全 率 反映 了 有 多 少 相 关 文 档 出 现在 结果 集中 ， 而 查 准 率 反映 了 结果 集中 相关 文 
档 的 比重 。 

根据 官方 NIST 的 评价 ，TREC45 测试 集中 有 202 个 文档 与 主题 426 相关 。 我 们 的 查询 
返回 了 其 中 的 167 个 ， 即 查 准 率 为 0. 190， 而 查 全 率 为 0.827。 用 户 可 能 会 觉得 这 样 的 结果 
是 可 以 接受 的 。 只 有 35 个 相关 文档 没有 被 返回 。 然 而 ， 为 了 找到 一 个 相关 文档 ， 用 户 必 须 
平均 阅读 4. 28 个 不 相关 文档 。 

有 时 候 会 看 到 查 全 率 和 查 准 率 被 组 合 为 一 个 简单 的 值 ， 称 为 FRE (F-measure). & 











简单 的 Fa F,， 是 查 全 率 和 查 准 率 的 调和 平均 : 
R= (2-18) 
去 十 二 R+P 


其 中 ，R 代表 查 全 率 ，P 代表 查 准 率 。 与 算术 平均 值 (CR 十 P)/2) 相 比 ， 调 和 平均 能 够 在 查 
全 率 和 查 准 率 之 间 达 到 一 个 平衡 。 例 如 ， 如 果 我 们 返回 整个 文档 集 作 为 查询 结果 ， 那 么 查 全 
率 将 为 1， 查 准 率 则 几乎 接近 0。 对 于 这 个 结果 ， 算 术 平 均值 大 于 0.5， 而 调和 平均 值 为 2P/ 
(1 十 P)， 当 书 接 近 0 时 ， 这 个 值 接近 0。 

这 个 式 子 也 可 一 般 化 为 加 权 调 和 平均 (weighted harmonic mean)， 使 得 可 以 更 加 侧重 
查 全 率 或 查 准 率 。 

. 1 

其 中 ，0<a 和 1。a=0 时 ， 这 个 测度 等 价 于 查 准 率 ; a 二 1 时 ， 等 价 于 查 全 率 。 当 一 0.5 时 ， 
等 价 于 公式 (2-18)。 根 据 标 准 实验 (van Rijsbergen，1979， 第 7 章 )， 我 们 设置 a= 
1/(8: 十 1) ,而 且 定 义 FF 测度 为 ; 


(2-19) 


F (8 +1)-R-P 

P~ BRP 
其 中 ，B 可 为 任何 实数 。 因 此 ，F WHS, Fo WAWER. p< 时 侧重 查 全 率 ; |8 >1 
时 侧重 查 准 率 。 


2.3.2 排名 检索 的 有 效 性 指标 


如 果 用 户 只 想 阅 读 一 两 个 相关 文档 ， 那 么 排名 检索 比 布尔 检索 更 能 提供 一 个 有 用 的 结果 
集 。 为 了 将 查 全 率 和 查 准 率 的 概念 扩展 到 排名 检索 算法 返回 的 有 序列 表 中 ， 我 们 考虑 由 查询 
返回 的 前 k 个 文档 Resl1..k], HAMPER: 
|RelN Res{1..k]| 
| Rell 


(2-20) 


recall@k= (2-21) 
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|RelM Resll..k]| 

[Resik] (2-22) 
KP, precision@k 通常 也 记 为 P@k, MRRNHEM 426 的 标题 看 做 是 一 个 用 于 排名 检 
索 的 词 项 向 量 ，〈(“law”，“enforcement”，“dogs”)， 用 邻近 度 排名 方法 可 得 到 P@10= 
0.400, recall@10=0. 019 8。 如 果 用 户 从 上 而 下 阅读 列表 ， 那 么 在 前 10 个 文档 里 面 会 发 现 
4 个 相关 文档 。 

通过 定义 ,我们 可 以 看 出 recall@k 随 着 上 单调 增加 。 相 反 ， 如 果 排 名 检索 方法 遵循 第 

1 章 介 绍 的 概率 排名 原则 〈 即 按照 相关 性 从 大 到 小 对 文档 进行 排名 ) ， 那 么 P@ k 随 着 上 的 递 
增 而 减 小 。 对 于 主题 426 ， 由 邻近 度 排 名 得 到 ， 


precision@k= 





k 10 20 50 100 200 1000 
P@k 0. 400 0. 450 0. 380 0. 230 0. 115 0. 023 
recall@ k 0. 020 0. 045 0. 094 0. 114 0. 114 0. 114 


因为 只 有 82 个 文档 包含 了 查询 中 的 所 有 词 项 ， 因 此 邻近 度 排 名 方法 不 能 返回 200 或 者 1000 
个 得 分 大 于 0 的 文档 。 为 了 能 与 其 他 排名 方法 做 比较 ， 我 们 假定 排 在 后 面 的 文档 都 是 不 相关 
的 ， 从 而 计算 查 全 率 和 查 准 率 。 从 整体 来 看 ， 用 户 也 许 更 满意 上 一 小 节 中 布尔 查询 的 结果 。 
但 是 这 样 比较 当然 是 不 公平 的 。 布 尔 查询 包含 不 在 词 项 向 量 中 的 词 项 ， 而 且 可 能 需要 更 多 的 
工作 量 。 对 于 同样 的 词 项 向 量 ， 由 余弦 相似 度 排名 方法 得 到 








k 10 20 50 100 200 1000 
P@k 0. 000 0. 000 0. 000 0. 060 0. 070 0. 051 
recall@ k 0. 000 0. 000 0. 000 0. 030 0. 069 0. 253 


余弦 相似 度 排 名 方法 的 查询 结果 相当 糟糕 ， 用 户 不 太 可 能 会 对 这 样 的 结果 满意 。 

通过 改变 值 大 小 ， 我 们 可 以 调节 查 准 率 和 查 全 率 ， 为 获得 更 多 相关 文档 而 接受 一 个 
低 查 准 率 或 是 相反 。 信 息 检 索 实 验 可 以 考虑 一 系列 的 值 ， 当 用 户 希 望 很 快 得 到 结果 并 且 
只 需要 少量 结果 时 ， 可 取 较 低 的 上 值 。 当 用 户 希 望 发 现 尽 可 能 多 的 信息 并 愿意 对 结果 列表 
进行 深入 探究 时 ， 可 取 较 高 的 值 。 第 一 种 情况 在 Web 搜索 中 很 常见 ， 通 常用 户 只 会 查看 
最 前 面 的 1 一 2 个 结果 就 去 尝试 别 的 了 。 第 二 种 情形 通常 发 生 在 法 律 领域 内 ， 也 许 会 有 蛛 丝 
马 迹 令 案件 峰回路转 ， 因 此 彻底 的 搜索 是 非常 必要 的 。 

从 上 面 的 例子 中 我 们 可 以 看 到 ， 即 便 是 有 = 二 1000， 查 全 率 也 还 是 明显 低 于 100%。 除 了 
提高 值 ， 我 们 还 需 深 入 分 析 结 果 集 来 尝试 显著 地 提高 查 全 率 。 而 且 ， 因 为 许多 相关 文档 
也 许 根 本 不 包含 查询 中 的 任何 词 项 ， 因 此 如 不 返回 那些 得 分 为 0 的 文档 ， 查 全 率 一 般 是 不 可 
能 达到 100 多 的 。 为 了 简单 而 且 一 致 ， 信 息 检 索 的 实验 通常 只 考虑 一 定数 量 的 文档 ， 通 常 取 
Ay k=1000 个 结果 。 在 更 高 层次 的 处 理 中 ， 我 们 简单 地 认为 查 准 率 为 0。 当 在 做 实验 的 时 

候 ， 我 们 将 这 个 值 传递 给 k 作为 检索 函数 的 参数 ， 如 图 2-9 和 2-11 所 示 。 
为 了 研究 查 全 率 和 查 准 率 之 间 的 平衡 关系 ， 我 们 绘制 查 全 率 - 查 准 率 曲 线 。 图 2-13 展示 
”了 邻近 庆 排 名 的 三 个 例子 。 图 中 描绘 的 是 主题 426 和 其 他 两 个 取 自 1998 TREC 特定 任务 的 
主题 ， 主题 412 (“airport security”) 和 主题 414 (“Cuba, sugar, exports”) 的 曲线 。11 个 
查 全 率 点 以 10% 的 增 量 从 0 多 递增 到 100% ， 曲 线 给 出 了 在 某 个 查 全 率 水 平 上 可 达到 的 最 大 
查 准 率 。 当 查 全 率 为 0% 时 意味 着 在 任何 查 全 率 水 平 上 都 可 获得 最 高 的 查 准 率 。 因此， 主题 


第 2 章 基础 技术 .49 


412 可 获得 的 最 高 查 准 率 为 80% ， 主 题 414 可 获得 的 最 高 查 准 率 为 50% ， 主 题 426 可 获得 的 
最 高 查 准 率 为 100% 。 当 查 全 率 为 20% 或 者 更 高 时 ， 主 题 412 的 邻近 度 排名 的 查 准 率 高 达 
57% ， 主 题 414 的 查 准 率 为 32% ， 但 主题 426 的 查 准 率 为 0%。 这 种 在 某 一 给 定 查 全 率 水 平 
或 之 上 给 出 最 大 查 准 率 的 技术 称 为 插值 查 准 率 (interpolated precision) 。 播 值 的 方法 具有 能 
够 产生 单调 递减 曲线 的 特性 ， 可 以 很 好 地 描述 查 全 率 和 查 准 率 之 间 的 平衡 关系 。 


> 一 | 一 主题 412: airport security 
08 A -3¢- 主题 414: Cuba, sugar, exports 
' - -X- - 主题 426: law enforcement, dogs 





HEM 


2-13 在 TREC45 文档 集 上 ，3 个 TREC 主题 得 到 的 11 个 点 的 捅 值 查 全 率 - 查 准 
率 曲线 。 结 果 通 过 邻近 度 排 名 产生 


为 了 描述 检索 在 一 系列 查 全 率 上 的 效果 ， 我 们 可 以 计算 平均 查 准 率 (average preci- 
sion) 。 定 义 如 下 : 


k 

1 
—- X relevant(i) x P@i (2-23) 
| Rell 和 


其 中 ， 如 果 排 名 为 i 的 文档 是 相关 的 “ 即 如 果 Res[i]E Rel), W relevant(i)=1, AMA 
0。 平 均 查 准 率 代表 了 位 于 “〈 非 插值 ) 查 全 率 - 查 准 率 曲 线 下 方 区 域 的 一 个 近似 。 在 主题 426 
中 返回 的 前 1000 个 文档 中 ， 邻 近 度 排名 可 以 达到 0. 058 的 平均 查 准 率 ; 余弦 相似 度 可 达到 
0. 016 的 平均 查 准 率 。 

目前 为 止 ， 我 们 仅 考虑 了 单个 主题 上 的 有 效 性 指标 。 自 然 地 ， 单 个 主题 上 的 性 能 不 足以 
说 明 什 么 ， 一 个 典型 的 信息 检索 实验 要 考察 50 个 或 更 多 个 主题 。 在 一 组 主题 上 计算 有 效 性 
指标 的 标准 过 程 ， 是 计算 单个 主题 上 的 指标 然后 取 它 们 的 算术 平均 。 在 研究 信息 检索 的 文献 
H, P@k, recall@k 和 其 他 指标 ， 包 括 查 全 率 - 查 准 率 曲线 在 内 ， 都 是 一 组 主题 上 的 平均 
值 。 除 非 作 者 想 要 讨论 这 些 主题 的 某 些 指定 特征 ， 否 则 很 少 会 看 到 单个 主题 上 的 值 或 是 曲 
线 。 在 使 用 平均 查 准 率 时 ， 为 了 避免 可 能 与 平均 P@k 值 混淆 ， 明 确 地 称 一 组 主题 上 的 算术 
平均 为 平均 查 准 率 均值 (Mean Average Precision, MAP). 

因为 MAP 综合 考察 了 系统 在 全 系列 查 全 率 上 的 性 能 ， 且 频繁 地 被 使 用 在 TREC 和 其 他 
一 些 评价 论坛 中 ， 所 以 直到 几 年 前 在 信息 检索 文献 的 检索 实验 里 关于 MAP 值 的 报告 几乎 无 
处 不 在 。 最 近 ， 随 着 MAP 许多 缺点 不 断 地 变 得 明显 以 及 其 他 的 指标 开始 逐步 普及 ，MAP ` 

遗憾 的 是 ， 由 于 MAP 是 平均 值 的 平均 ， 因 此 从 用 户 能 体验 的 实际 性 能 上 很 难 对 MAP 
给 出 明确 、 直 观 的 解释 。 尽 管 如 P@10 这 样 的 指标 提供 的 关于 整体 系统 性 能 的 信息 并 不 多 ， 
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但 它 更 好 理解 。 因 此 在 本 书 中 ， 我 们 在 实验 中 将 同时 报告 P@10 和 MAP。 在 第 焉 部 分 ， 我 
们 探讨 其 他 的 有 效 性 指标 ， 并 将 其 与 查 准 率 、 查 全 率 和 MAP 进行 比较 。 

为 了 简单 起 见 ， 同 时 也 为 了 与 已 发 表 的 结果 保持 一 致 ， 我 们 不 建议 自己 写 代码 来 计算 有 
效 性 指标 。NIST 提供 了 一 个 程序 trec_evale ， 可 计算 一 系列 标准 指标 ， 包 括 P@k 和 
MAP。 这 个 程序 是 计算 TREC 报告 的 实验 结果 的 标准 工具 。Chris Buckley 是 trec_eval 的 创 
建 者 和 维护 者 ， 会 定期 更 新 这 个 程序 ， 也 会 包括 在 文献 中 出 现 的 新 指标 。 

有 效 性 结果 

表 2-5 展示 了 在 四 个 测试 集 上 不 同 的 检索 方法 的 MAP 和 P@10 值 。 第 一 行 是 2. 2. 1 节 
介绍 的 余弦 相似 度 排名 方法 的 评价 结果 。 第 2 行 是 2.2. 2 节 介 绍 的 邻近 度 排名 方法 的 评价 
结果 。 


R25 本 书 中 讨论 的 几 个 检索 方法 的 有 效 性 指标 





















































TREC45 GOV2 
方法 1998 1999 2004 | 2005 

P@10 | MAP P@10 | MAP P@10 | MAP P@10 | MAP 

余弦 (2.2.1) 0.264 | 0.126 0.252 | 0.135 0.120 | 0.060 0.194 | 0.092 

邻近 度 (2.2.2) 0.396 | 0.124 0.370 | 0.146 0.425 | 0.173 0.562 | 0.230 

余弦 (原始 TF 值 ) 0.266 | 0.106 0.240 | 0.120 0.298 | 0.093 0.282 | 0.097 

ARIZ (TF 文档 ) 0.342 | 0.132 0.328 | 0.154 0.400 | 0.144 0.466 | 0.151 

| | | 

BM25 (Ch. 8) 0.424 0.440 | 0.205 0.471 | 0.243 0.534 | 0.277 

LMD (Ch. 9) 0.450 | 0.193 0.428 | 0.226 0.484 | 0.244 0.580 | 0.293 

DFR (Ch. 9) 0.426 0.446 | 0.216 0.465 | 0.248 














正如 我 们 在 2. 2. 1 节 介 绍 的 那样 ， 历 年 来 已 有 许多 余弦 相似 度 方法 的 变 体 。 接 下 来 两 行 
是 其 中 的 两 个 的 评价 结果 。 第 一 个 变 体 是 用 原始 的 TF 值 ， 即 词 项 出 现 的 频率 fa KREA 
式 (2-14) 中 的 TF 值 。 在 TREC45 文档 集中 ， 这 种 改变 降低 了 性 能 ， 但 是 在 GOV2 这 个 
文档 集 上 ， 又 显著 地 提升 了 性 能 。 第 二 个 变 体 〈 对 应 表 中 第 4 行 ) 忽略 文档 长 度 归 一 化 和 文 
档 IDF 值 〈 在 查询 向 量 中 仍 考虑 ) 。 在 这 种 变 体 中 我 们 简单 地 通过 计算 非 归 一 化 文档 向 量 和 
查询 向 量 的 内 积 来 计算 文档 得 分 ， 


seore(q.d)= > alog (È) - (los fe) + D (2-24) 


te(qnd) t 
也 许 令 人 惊讶 的 是 ， 这 个 改变 能 显著 提升 性 能 ， 使 之 几乎 达到 邻近 度 排名 方法 的 水 平 。 

我 们 如 何 解 释 这 种 性 能 提升 呢 ? 向 量 空间 模型 的 出 现 和 发 展 是 在 这 样 一 个 时 期 : 文档 都 
差不多 长 ， 通 常 都 是 短 的 书籍 摘要 或 者 是 科学 文章 。 将 文档 表示 为 向 量 的 想法 是 这 个 模型 草 
含 的 重要 灵感 。 一 旦 我 们 将 文档 想象 为 向 量 ， 那 么 就 不 难 想 出 下 一 步 ， 即 在 向 量 上 使 用 标准 
的 数学 操作 ， 包 括 加 法 、 归 一 化 、 内 积 和 余弦 相似 度 。 很 遗憾 的 是 ， 当 文档 集中 的 长 度 各 不 
相同 时 ， 向 量 归 一 化 就 不 太 适 用 了 。 因 为 这 个 原因 ， 到 了 20 世纪 90 年 代 早 期 ， 最 后 一 个 向 
量 空间 模型 的 变形 就 成 为 了 标准 。 

本 章 之 所 以 介绍 向 量 空间 模型 更 多 的 是 因为 它 比 其 他 模型 历史 更 悠久 。 由 于 它 的 长 期 影 
响 ， 任 何 信息 检索 的 教科 书 都 不 会 少 了 它 。 在 后 面 的 章节 里 ， 我 们 会 介绍 其 他 具有 不 同 理论 
基础 的 排名 检索 方法 。 表 2-5 中 的 最 后 3 行 给 出 了 其 中 三 种 方法 的 评价 结果 : 基于 概率 模型 
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的 方法 〈BM25) ， 基 于 语言 模型 的 方法 (LMD) 和 基于 随机 多 样 性 的 方法 (DFR). # 2-6 
给 出 了 这 些 方法 的 计算 公式 。 从 表 中 可 以 看 出 ， 这 三 种 方法 仅仅 依赖 于 在 2. 2 节 开 始 部 分 介 
绍 的 简单 特征 。 它 们 都 表现 出 比 余弦 相似 度 和 邻近 度 排 名 更 好 的 性 能 。 

表 2-6 后 面 章 节 要 讨论 的 排名 公式 。 在 这 些 公 式 中 ，gq, 代表 查询 词 项 的 频率 ， 即 词 项 t 出 现在 查询 


中 的 次 数 。BM25 中 的 5 和 Ki 以 及 LMD 中 的 都 是 可 变 的 参数 。 在 我 们 的 实验 中 ，b=0.75， 
kı=1.2, p=1000 





方法 公式 

BM25 (Ch. 8) reg ge: (fea (ki +1))/(ki - (C1 — 8) + b- la /lavg)) + fe,a) - log(N/Ne) 
LMD (Ch. 9) reg qt (log + fia le/lt) ~ log(u + la)) 

DFR (Ch. 9) Deg Mt | (log(1 + la/N) + frag: log(l+ N/lt))/(f'4at+1), 


其 中 fsa = fa log (1 + lavg/la) 


图 2-14 描绘 了 1998 年 TREC 特定 任务 的 11 点 插值 查 全 率 - 查 准 率 曲线 图 ， 与 表 2-5 中 
的 第 4 行 和 第 5 行 对 应 。LMD 和 DFR 方法 看 上 去 略 好 于 BM25， 而 BM25 又 好 于 邻近 度 排 
序 方法 和 TF docs 版 本 的 余弦 相似 度 方法 。 


0.8 一 ----------------------------------------------- 
-一 一 余弦 (2.2.1) 


站 - 关 - 邻近 度 (2.2.2) 
as, - - 尖 … 余弦 (原始 TF 值 ) 
0.6 Wer ccc nrc rrr ccc rrr rrr O- 余弦 (TF 文档 ) 
\ 





查 全 率 


Æ 2-14 1999 TREC 特定 任务 “TREC45 文档 集中 主题 401~450) 上 多 个 基本 检索 方法 
的 11 点 播 值 查 全 率 - 查 准 率 曲 线 图 


2.3.3 创建 测试 集 


检索 方法 的 有 效 性 评价 取决 于 人 们 对 相关 性 的 评估 。 给 定 一 个 主题 和 一 个 文档 集合 ， 评 
价 者 阅读 每 篇 文档 然后 做 出 判断 ， 相 关 或 是 不 相关 ? 如 果 主 题 很 好 理解 ， 评 价 可 以 进行 得 很 
快 。 一 旦 加 快速 度 ， 评 价 者 就 可 在 10 秒 甚至 更 短 时 间 内 做 出 判断 。 遗 憾 的 是 ， 就 算 以 每 10 
秒 做 出 一 个 判断 的 速度 ， 除 休息 日 和 假期 评价 者 每 天 工作 8 小 时 ， 在 TREC 这 个 拥有 50 
万 文档 的 集合 上 完成 一 个 主题 的 判断 也 要 将 近 1 年 的 时 间 ， 如 果 换 成 大 小 为 2500 万 的 
GOV2 文档 集 ， 那 么 评价 者 可 能 要 耗 上 她 的 全 部 职业 生涯 。 

考虑 到 在 整个 文档 集中 判断 一 个 主题 的 困难 性 ，TREC 和 其 他 的 检索 实验 依赖 于 一 种 称 
为 文档 池 (pooling) 的 技术 来 限制 所 需 的 判断 次 数 。 标 准 的 TREC 的 实验 流程 是 接受 每 个 
参与 特定 任务 的 各 个 小 组 的 一 个 或 多 个 运行 实例 (runs) 。 每 一 个 运行 实例 包含 与 某 个 主题 
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相关 的 前 1000 或 10 000 个 文档 。 文 档 池 方 法 从 每 个 运行 实例 中 取出 前 100 个 左右 的 文档 组 
成 (pooled) 一 个 文档 池 ， 让 评价 者 随机 抽取 进行 评价 。 就 是 有 儿 十 个 参与 者 ， 文 档 池 中 每 
个 主题 的 文档 数量 也 不 会 超过 1000， 因 为 不 同 的 系统 有 可 能 返回 同一 个 文档 。 即 便 评判 进 
行 得 非常 仔细 ， 每 一 个 判断 平均 都 需要 好 儿 分钟 ， 一 个 评价 者 也 还 是 有 望 在 不 到 一 个 星期 内 
完成 工作 。 通 常 所 花 的 时 间 还 更 少 。 

文档 池 方 法 的 目标 就 是 在 保证 得 到 合理 的 查 全 率 和 查 准 率 的 情况 下 ， 减少 评 价 的 工作 
量 。 对 于 在 池 中 加 入 了 文档 的 运行 实例 ，P@k 和 recall@k 值 至 少 在 池子 里 是 准确 。 这 个 
池子 外 的 许多 文档 还 是 需要 被 评估 的 ， 因 为 其 他 的 运行 实例 对 超出 池子 深度 外 的 文档 进行 了 
HEY, MAP 仍然 在 每 个 运行 实例 的 1000 或 10 000 个 文档 上 计算 ， 没有 被 评估 的 文档 被 认 
为 是 不 相关 的 (unjudged documents treated as not relevant)。 因 为 排 在 前 面 的 文档 对 MAP 
值 的 影响 更 大 ， 所 以 用 这 种 方法 来 进行 估计 的 准确 性 仍然 是 可 接受 的 。 

根据 文档 池 方 法 ，TREC 一 个 测试 集 的 创建 和 类 似 的 效果 评价 可 按 以 下 步骤 进行 ; 

1) 从 公开 的 数据 源 ， 或 者 通过 与 文档 集 的 拥有 者 达成 协定 ， 来 获取 一 个 恰当 的 文档 集 。 

2) 形成 至 少 50 个 主题 ， 这 个 最 小 值 通常 对 于 一 个 有 意义 的 评价 来 说 是 可 接受 的 。 

3) 将 主题 分 发 给 任务 参与 者 ， 接 收 他 们 实验 的 每 个 运行 实例 的 结果 。 

4) 建立 缓冲 池 ， 判 断 文 档 与 主题 的 相关 性 ， 将 结果 返回 给 参与 者 。 

当 生 成 主题 时 ， 在 标准 的 信息 检索 系统 上 对 主题 做 一 次 预先 测试 ， 可 以 在 靠 前 的 那些 返 
回 结果 中 看 出 相关 文档 和 不 相关 文档 的 大 致 合理 的 分 布 。 如 果 相 关 文档 太 多 ， 会 很 容易 使 系 
统 的 MAP 值 达到 1. 0， 这 样 就 很 难 区 别 系统 之 间 的 差别 。 如 果 相 关 文 档 太 少 ， 很 多 系统 难 
以 使 MAP 值 大 于 0.0， 一 样 难以 区 别 不 同系 统 。 借 用 《The Story of the Three Bears) 中 
Goldlocks 的 标准 ， 我 们 希望 不 要 太 多 ,不 要 太 少 ,合适 就 行 。 

理想 情况 下 ， 测 试 集 应 该 是 可 重用 的 ， 研 究 者 开发 了 新 的 检索 方法 后 ， 可 用 统一 的 文 
档 、 主 题 和 评判 方法 来 决定 如 何 将 新 方法 和 旧 方 法 进行 比较 。 尽 管 文档 池 方 法 使 得 我 们 不 用 
花 上 一 辈子 的 时 间 去 创建 这 么 一 个 测试 集 ， 但 你 还 是 会 对 产生 这 样 一 个 可 重用 的 测试 集 的 能 
力 有 一 些 合 理 的 担心 。 一 个 真正 新 颖 的 检索 方法 可 能 会 检索 到 很 多 的 相关 文档 ， 它 们 既 不 是 
原来 缓冲 池 的 一 部 分 也 没有 被 评判 过 。 如 果 未 被 评判 的 文档 因为 计算 评价 指标 而 被 视 为 是 不 
相关 的 ， 这 个 新 颖 的 方法 也 许 会 得 到 过 分 苛刻 的 得 分 。 更 悲剧 的 是 ， 它 因此 甚至 会 被 研究 者 
抛弃 而 从 此 消失 在 科学 界 。 解 决 这 个 问题 及 相关 问题 的 另 一 个 有 效 性 指标 将 在 第 12 章 介绍 。 


2.3.4 效率 指标 


除了 需要 评价 一 个 系统 的 检索 有 效 性 ， 评 价 系统 的 效率 通常 也 是 有 必要 的 ， 因 为 它 影 响 
系统 运行 的 代价 以 及 用 户 对 系统 的 满意 程度 。 从 用 户 的 角度 看 来 ， 唯 一 有 用 的 效率 指标 是 响 
应 时 间 (response time), ， 即 从 和 输入 查询 到 收 到 结果 之 间 的 时 间 。 知 吐 量 (throughput) 是 
指 给 定时 间 段 内 系统 处 理 查询 的 平均 数量 ， 这 是 搜索 引擎 运营 商 关 心 的 主要 指标 ， 特 别 是 当 
搜索 引擎 同时 被 多 个 用 户 使 用 并 需要 每 秒 中 处 理 成 千 上 万 个 查询 的 时 候 。 必 须要 有 足够 的 资 
源 来 应 付 由 多 个 用 户 产生 的 查询 负载 ， 以 确保 不 影响 每 个 用 户 需要 等 待 的 响应 时 间 。 难 以 忍 ， 
受 的 长 时 间 等 待 会 让 用 户 不 满 ， 最 终 会 导致 用 户 流失 

实际 测量 的 吞吐 量 以 及 它 和 响应 时 间 之 间 的 平衡 需要 对 查询 负载 进行 详细 的 模拟 。 为 了 
简化 效率 的 度量 ， 我 们 主要 关注 响应 时 间 和 处 理 单个 用 户 在 一 个 无 负载 的 搜索 引擎 上 发 起 的 
一 次 查询 的 性 能 。 第 13 章 更 广泛 地 讨论 了 系统 的 查询 效率 ， 并 更 详细 地 讨论 了 大 吐 量 。 

测量 响应 时 间 的 一 个 简单 但 合理 的 过 程 是 执行 一 个 完整 的 查询 集 ， 捕 捉 第 一 个 查询 恰好 
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开始 被 处 理 的 明确 时 刻 和 最 后 一 个 结果 产生 后 的 结束 时 间 。 这 个 在 整个 集合 上 的 时 间 除 以 查 
询 的 数量 就 等 于 每 个 查询 的 平均 响应 时 间 (average response time)。 结 果 在 产生 之 后 就 丢弃 
了 ， 不 需要 将 其 进行 存储 或 传输 到 网 络 中 去 ， 因 为 这 些 操 作 的 开销 很 大 〈 从 而 影响 响应 时 间 
的 计算 译 者 注 ) ， 特 别 对 于 小 的 文档 集 更 是 如 此 。 

在 执行 查询 集 之 前 ， 应 重启 或 重 置信 息 检 索 系 统 ， 将 为 上 一 个 查询 进行 的 预计 算 或 存储 
在 内 存 中 的 信息 清除 ， 操 作 系统 的 IO 缓存 也 应 刷新 。 为 了 提高 测量 的 准确 性 ， 查 询 集 会 
被 执行 多 次 ， 每 一 次 系统 都 要 重 置 ， 多 次 执行 时 间 的 平均 值 就 用 于 计算 平均 响应 时 间 。 

作为 一 个 例子 ， 表 2-7 用 Okapi BM25 排名 函数 COL 2-6) 的 Wumpus 实现 ， 比 较 了 
模式 独立 索引 和 词 频 索 引 的 平均 响应 时 间 。 我 们 在 这 个 例子 中 用 到 了 Okapi BM25， 是 因为 
这 个 排序 函数 的 Wumpus 实现 为 了 效率 进行 了 明显 的 调整 。 





表 2-7 Okapi BM25 的 Wumpus 实现 (第 8 章 ) 的 查询 平均 响应 时 间 ， 使 用 了 两 种 不 同 
的 索引 类 型 和 四 个 不 同 的 查询 集 













索引 类 型 












模式 独立 索引 
WARI 


| 199 | æ | 

57 ms 1686 ms 4763 ms 

使 用 词 频 索 引 具 有 明显 的 效率 优势 ， 特 别 是 在 大 的 GOV2 文档 集 上 。 使 用 模式 独立 索 
引 需 要 在 线 时 间 计 算 文档 和 词 项 的 统计 信息 ， 而 这 些 在 词 频 索引 中 是 预计 算 好 的 。 对 于 用 户 
来 说 ，202 ms 的 响应 时 间 是 很 快 的 ， 而 4. 7s 的 响应 时 间 就 显得 慢 了 。 然 而 使 用 词 频 索 引 ， 
词组 查找 或 排名 函数 都 不 能 用 于 其 他 的 文档 〈 因 为 一 个 文档 上 预计 算 的 统计 信息 对 于 别 的 文 
档 就 不 适用 了 一 一 译 者 注 )。 

表 中 给 出 的 效率 指标 以 及 本 书 中 的 吞吐 量 ， 都 是 在 AMD Opteron 处 理 器 (2.8 GHz), 
2 GB RAM 的 机 架 式 服务 器 上 运行 得 到 的 结果 。 附 录 A 给 出 了 这 个 计算 机 系统 详细 的 性 能 
参数 。 


2.4 总结 


本 章 涵盖 了 很 多 主题 ， 而 且 都 介绍 得 很 详细 。 几 个 重点 内 容 如 下 : 

。 我 们 将 倒 排 索引 视 为 是 一 种 抽象 数据 类 型 ， 可 通过 表 2-4 中 的 方法 和 定义 来 访问 。 
它 有 四 种 重要 的 变形 一 -文档 编号 索引 、 词 频 索 引 、 位 置 索引 以 及 模式 独立 索 
引 一 一 区 别 在 于 它们 存储 的 信息 类 型 和 格式 。 

多 个 检索 算法 一 一 如 本 章 介绍 的 词组 查找 算法 、 邻 近 度 排名 算法 和 布尔 查询 处 理 算 
法 一 一 都 可 以 使 用 跳 茎 式 搜索 高 效 地 实现 。 这 些 算法 都 是 自 适 应 的 ， 它 们 的 时 间 复 
杂 度 取决 于 数据 的 特征 ， 如 候选 词组 的 个 数 。 

排名 检索 和 布尔 过 滤 在 当今 的 信息 检索 系统 中 都 非常 重要 。 排 名 检索 的 合理 方法 依 
赖 于 简单 的 文档 和 词 项 统计 信息 ， 如 词 项 频率 〈TF) 、 闭 文档 频率 CDF) 以 及 词 项 
邻近 度 。 著 名 的 余弦 相似 度 方法 将 文档 和 查询 表示 成 向 量 ， 根 据 文 档 向 量 和 查询 向 
量 之 间 的 夹 角 大 小 对 文档 进行 排名 。 

查 全 率 和 查 准 率 是 广泛 使 用 的 两 个 有 效 性 指标 。 它 们 之 间 是 相互 牵制 的 ， 例 如 查 全 
率 的 提高 会 导致 查 准 率 的 下 降 。 在 一 系列 的 查 全 率 水 平 上 评价 系统 的 整体 有 效 性 时 ， 
平均 查 准 率 均值 CMAP) 是 一 个 标准 的 方法 。 整 本 书 中 MAP 和 P@10 是 最 主要 的 


202 ms 
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有 效 性 指标 。 

。 响应 时 间 代表 了 用 户 能 感知 的 信息 检索 系统 的 效率 。 我 们 通过 顺序 处 理 查询 ， 即 一 
次 读 人 一 个 查询 ， 在 开始 下 一 个 查询 之 前 报告 这 个 查询 的 结果 ， 来 对 最 小 响应 时 间 
做 出 合理 估计 。 


2.5 ”延伸 阅读 


倒 排 索引 长 期 以 来 都 是 信息 检索 系统 (Faloutsos, 1985; Knuth，1973， 第 552 页 -第 
554 页 ) 底层 实现 的 标准 数据 结构 。 也 有 其 他 的 数据 结构 被 提出 ， 通 常 是 为 特殊 的 检索 操作 
提供 更 有 效 的 支持 。 然 而 ， 这 些 数 据 结构 没有 像 倒 排 索引 那样 的 灵活 性 和 一 般 性 ， 因 此 几乎 
都 不 再 使 用 了 。 

长 期 以 来 签名 文件 被 看 做 是 倒 排 索引 最 重要 的 竞争 对 手 ， 特 别 当 磁盘 和 内 存 很 珍贵 的 时 
{k (Faloutsos, 1985; Faloutsos 和 Christodoulakis, 1984; Zobel 等 人 ，1998)。 签 名 文件 
通过 快速 消除 不 匹配 查询 的 文档 来 高 效 地 支持 布尔 查询 。 它 们 用 一 个 方法 实现 了 如 2. 2 节 讲 
的 两 步 检索 过 程 的 过 滤 步 又 。 遗 憾 的 是 ， 签 名 文件 会 找到 错误 的 匹配 ， 而 且 不 能 通过 简单 的 
扩展 来 支持 词组 查询 和 排名 检索 。 

后 缀 树 (Weiner，1973) 是 一 棵 查找 树 ， 从 根 到 叶子 的 一 条 路 径 对 应 文档 集中 一 个 唯 
一 的 后 级 。 后 缀 数组 (Gonnet, 1987; Manber 和 Myers, 1990) 是 一 个 指针 数组 ， 指 向 文 
档 集 中 按 字 母 顺 序 存放 的 后 级 。 后 缀 树 和 后 缀 数组 都 是 为 了 支持 高 效 的 词组 查找 ， 以 及 例如 
字母 顺序 范围 搜索 和 结构 化 检索 等 操作 而 设计 的 “Gonnet 等 人 ，1992) 。 遗 憾 的 是 ， 这 两 种 
数据 结构 对 排名 检索 的 支持 都 很 差 。 

跳跃 式 搜 索 最 早 由 Bentley 和 Yao 提出 (1976)。 本 章 介绍 的 词组 查找 、 邻 近 度 排名 和 
布尔 检索 都 可 看 做 是 这 种 算法 的 变形 ， 它们 在 有 序列 表 上 计算 集合 操作 。“galloping” 这 个 
词 由 Demaine A (2000) 创造 ， 他 提出 和 分 析 了 求 集合 并 、 交 、 差 的 自 适应 算法 。Bar- 
bay, Kenyon (2002) 和 Baeza-Yates (2004) 提出 了 其 他 在 有 序列 表 上 求 交 集 的 算法 。 我 
们 通过 少数 简单 操作 将 倒 排 索引 抽象 成 ADT 是 源 于 Clarke A (2000) 的 想法 。 本 章 介绍 
的 邻近 度 排名 算法 是 他 们 论文 中 算法 的 一 个 简单 版 本 。 

向 量 空间 模型 发 展 到 本 章 介 绍 的 版 本 经 历 了 一 个 漫长 的 过 程 ， 至 少 可 以 追 潮 到 Luhn 在 
20 世纪 50 年 代 的 一 些 工作 (Luhn，1957，1958) 。 这 个 模型 长 期 的 成 功 和 影响 很 大 程度 上 
是 由 于 Salton 和 他 在 Cornell 大 学 的 研究 小 组 的 努力 ， 并 且 最 终 成 为 了 他 们 SMART IR 系 
统 的 关键 元 素 ， 这 个 系统 的 第 一 版 于 1964 年 的 秋天 开始 运营 (Salton, 1968, 422 页 )。 直 
到 20 世纪 90 年 代 早 期 ，SMART 仍然 是 信息 检索 研究 领域 中 为 数 不 多 的 可 用 平台 之 一 ,在 
这 个 时 期 ， 许 多 非 Salton 小 组 的 研究 者 都 将 其 作为 自己 研究 工作 的 基础 。 

直到 20 世纪 90 年 代 早 期 第 一 次 TREC 实验 的 时 候 ， 向 量 空间 模型 已 经 发 展 到 很 接近 
本 章 介绍 的 这 种 形式 (Buckley 等 人 ，1994) 。 一 个 更 进化 的 版 本 ， 于 1995 年 第 四 次 TREC 
会 议 中 被 提出 ， 是 文档 长 度 调整 方法 的 一 个 补充 称 为 旋转 文档 长 度 归 一 化 《pivoted docu- 
ment length normalization (Singhal 等 人 ,1996))。 这 个 版 本 被 排名 检索 接受 为 其 向 量 空间 
模型 的 核心 部 分 ， 但 不 适用 于 其 他 应 用 ， 例 如 聚 类 和 分 类 。1995 年 Salton 去 世 之 后 ， 
SMART 系统 在 Buckley 的 指导 下 继续 发 展 ， 并 在 十 余年 后 仍 是 一 个 非常 具有 竞争 力 的 研究 
系统 (Buckley, 2005). 

潜在 语义 分 析 〈Latent Semantic Analysis, LSA) 是 向 量 空 间 模 型 一 个 重要 的 且 众 所 周 
知 的 扩展 (Deerwester 等 人 ，1990) ， 我 们 在 本 书 中 没有 介绍 。LSA 应 用 线性 代数 中 的 奇异 
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值 分 解 ， 来 降低 词 项 向 量 空 间 的 维度 。 目 的 是 为 了 减少 同义词 带 来 的 副作用 一 一 很 多 词 项 都 
是 同样 的 意思 一 一 可 以 将 相关 的 词 归 并 到 同一 维 上 。 概 率 潜在 语义 分 析 (Probabilistic La- 
tent Semantic Analysis，PLSA) ， 是 一 个 使 用 概率 模型 达到 同样 目的 的 相关 技术 〈Hof- 
mann，1999)。 遗 憾 的 是 ， 由 于 难以 高 效 实现 ，LSA 和 PLSA 在 信息 检索 系统 上 的 广泛 应 
用 受到 了 限制 。 

Spam 歌 有 可 能 是 对 计算 机 术语 影响 最 大 的 一 首 歌 。 这 首 歌 首次 出 现在 《Monty 
Python's Flying Circus》 第 二 季 的 第 12 集中， 于 1970 年 12 月 15 日 由 BBC 电视 台 播 出 。 


2.6 练习 


练习 2.1 简化 next (“the”, prev (“the”, next (“the”， 一 co0)))。 
练习 2.2 考虑 图 2-2 中 的 词组 查找 算法 的 以 下 版 本 ， 
nextPhrase2 (tıt2...tn, position) = 

u — next(t1, position) 

Vo 





for i — 2 to n do 
v — next(t;, v) 
if v = œ then 
return [co, oo] 
ifv -u =n -— 1 then 
return [u, v] 
else 
return nextPhrase2(titz...tn, v — n) 
这 个 算法 与 图 2-2 的 版 本 相 比 ， 调 用 next 方法 的 次 数 一 样 但 不 需要 调用 prev 方法 。 解 释 这 个 算法 是 如 何 运 
行 的 。 它 如 何在 给 定位 置 之 后 找到 一 个 词组 的 下 一 次 出 现 ? 如果 结合 跳跃 式 搜索 来 查询 一 个 词组 的 所 有 出 
现 ， 你 认为 是 否 会 比 原版 算法 获得 更 高 的 效率 ? 解释 一 下 。 
练习 2.3 使 用 倒 排 索引 ADT 中 的 方法 写 一 个 算法 ， 查 找 台 词 段 (LSPEECH)…(/SPEECH)) 所 在 的 
位 置 区 间 。 使 用 如 图 2-1 的 模式 独立 索引 ， 剧 本 如 图 1-3 所 示 。 
练习 2. 4 使 用 倒 排 索引 ADT 中 的 方法 写 一 个 算法 ， 查 找 莎 士 比 亚 戏 剧 集 中 witch 的 台词 所 在 的 位 置 
区 间 。 使 用 如 图 2-1 的 模式 独立 索引 ， 剧 本 如 图 1-3 所 示 。 
练习 2.5 假定 在 莎士比亚 戏剧 集 上 有 一 个 模式 独立 的 倒 排 索引 ， 我 们 将 每 一 部 戏剧 视 为 一 个 文档 。 
(a) WAH first, last, next 和 prev 方法 写 一 个 算法 计算 以 下 统计 量 ， (GD Nt， 文档 集中 包含 词 项 上 的 
文档 数 ; (这 六。， 文 档 d 中 词 项 上 出现 的 次 数 ;〈ii) ls， 文档 @ 的 长 度 ; Cv 1 ， 文 档 的 平均 长 度 ; Cv) 
N, AXHA. 
Cb) 仅 使 用 first, last, next 和 prev 方法 写 出 docid, offset, firstDoc, lastDoc, nextDoc 以 及 prevDoc 
的 实现 算法 。 
为 简单 起 见 ， 你 可 将 每 个 《PLAY》 标签 的 位 置 当 做 是 文档 编导 ， 因 为 文档 从 这 个 位 置 开 始 ; 这 样 就 不 需 
要 顺序 地 为 文档 编号 赋值 了 。 例 如 , 《Machbeth》 的 文档 编号 为 745142 〈 因 为 “fisrt Witch” 第 一 次 出 现在 
[745142 : 265, 745142 : 266]) 。 
652.6 当 位 置信 息 列 表 存 储 在 磁盘 而 不 是 完全 存储 在 内 存 中 时 ， 倒 排 索 引 方 法 调用 的 时 间 很 大 程 
度 大 依赖 于 访问 磁盘 所 需 的 开销 。 当 执行 一 个 词组 查找 如 “Winne the Poon” 时 ,词组 同时 包括 频繁 词 项 
和 不 频繁 词 项 ， 为 winne 的 第 一 次 方法 调用 (next 〈“winnie”， 一 cc)) ， 可 能 需要 将 整个 位 置信 息 列表 从 磁 
盘 中 读 入 内 存 数组 。 其 他 的 调用 可 在 该 数组 中 用 跳跃 式 搜索 返回 结果 。 同 样 地 ,，“pooh” 的 位 置信 息 列表 也 
会 在 它 的 第 一 次 方法 调用 的 时 候 被 读 人 人 内存。 可 是 ，“the” 的 位 置信 息 列 表 可 能 无 法 整个 放 入 内 存 ， 目 标 
词组 的 出 现 位 置 也 许 只 是 这 些 位 置 中 的 一 小 部 分 。 
理想 情况 下 ，“the” 的 所 有 位 置 不 需要 从 磁盘 中 读 取 。 调 用 方法 可 以 一 次 读 取 位 置信 息 列表 中 的 一 小 
部 分 ， 遍 历 列表 会 产生 多 次 磁盘 访问 ， 在 合适 的 地 方 可 以 跳 过 列表 的 一 部 分 。 
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因为 每 个 为 “the” 进 行 的 方法 调用 都 会 产生 一 个 磁盘 访问 ， 因 此 一 个 可 取 的 方法 是 查找 词组 “Winnie 
the Pooh” 时 ， 一 旦 定位 “winpie” 的 出 现 位 置 后 立即 检查 “pooh” 的 出 现 位 置 。 如 果 “pooh” 没 有 出 现在 
预期 位 置 ， 我 们 就 丢弃 “winnie” 的 这 次 出 现 并 继续 寻找 它 的 下 一 次 出 现 ， 这 样 就 不 需要 检查 “the” 是 否 
出 现在 这 两 个 词 项 中 间 。 只 有 当 我 们 确定 “winnie” 和 “pooh” 出 现在 正确 的 位 置 “winnie pooh”), R 
们 才 需 要 为 “the” 调 用 方法 。 

一 般 说 来 ， 给 定 一 个 词组 “ to… tn”， 搜 索 算 法 可 以 从 最 不 频繁 的 词 项 逐个 处 理 到 最 频繁 的 词 项 ， 
一 且 发 现 漏 了 某 个 词 项 ， 就 立即 放弃 目前 这 次 搜索 ， 这 样 才 可 能 将 为 最 频繁 的 词 项 进行 的 方法 调用 减少 到 
最 小 次 数 。 用 倒 排 索引 ADT 中 的 基本 定义 和 方法 ， 完 善 这 个 算法 的 细节 。 这 个 算法 调用 next 和 prev 方法 
的 时 间 复 杂 度 是 多 少 ? 如 果 使 用 了 跳跃 式 搜 索 来 实现 这 些 方法 ， 那么 整体 时 间 复 杂 度 又 是 多 少 ? 

这 个 算法 是 自 适应 的 吗 ? (提示 : 考虑 在 2. 1. 1 节 最 后 的 文档 集 上 搜索 “hello world”， 要 调用 多 少 次 
方法 ?) 

练习 2.7 KE (Coordination level〉 是 指向 量 〈ti ,，…-，t%〉 出 现在 一 个 文档 中 的 词 项 个 数 。 它 
的 取 值 范围 从 1 一 %。 使 用 倒 排 索 引 ADT 中 的 方法 ， 写 一 个 根据 文档 的 协调 水 平 对 文档 进行 排名 的 算法 。 

练习 2.8 UALS (ti, +, th) RBA nel PRR 〈 见 2. 2.2 节 )， 其 中 1 是 向 量 中 词 项 最 短 
位 置信 息 列表 的 长 度 。 

练习 2.9 根据 练习 2. 2 的 启示 ， 为 图 2-10 中 的 算法 设计 一 个 新 的 版 本 ,使 得 新 算法 中 无 需 调 用 
docLeft 方法 。 

练习 2. 10 ”如果 一 1/(8 十 1)， 证 明 公式 (2-19) 和 公式 (2-20) 是 等 价 的 。 

练习 2. 11 (项 目 练习 ) 为 2. 1. 2 节 介 绍 的 倒 排 索引 实现 一 个 面向 内 存 基于 数组 的 版 本 ， 包 括 next 方 
法 的 三 个 版 本 ， 二 分 查找 、 线 性 扫描 和 跳跃 式 搜索 。 使 用 你 实现 的 倒 排 索 引 去 实现 2. 1.1 节 的 词组 查找 
算法 。 

为 了 测试 你 的 词组 查找 算法 ， 我 们 建议 使 用 256 MB 或 稍微 大 些 的 文档 集 ， 以 便 能 够 放 得 进 你 的 计算 
机 内 存 中 。 练 习 1.9 产生 的 文档 集 (或 者 是 它 的 子 集 ) 大 小 合适 。 从 你 的 文档 集中 选 出 至 少 10 000 个 长 度 
不 同 的 词组 ， 来 验证 你 的 算法 能 正确 定位 这 些 词组 。 你 的 选择 应 包括 长 度 为 2 一 3 的 短 词组 ， 长 度 为 4 一 10 
的 稍 长 的 词组 ， 以 及 长 度 为 100 或 更 长 的 长 词组 。 还 应 包括 频繁 和 不 频繁 的 词 项 。 至 少 一 半 的 词组 应 该 至 
少 包含 一 个 非常 常用 的 词 项 ， 例 如 冠 词 或 介词 。 

根据 2. 3.4 节 的 指引 ， 用 你 实现 的 三 个 版 本 的 next 方法 来 比较 词组 查找 的 效率 。 计 算 平 均 响应 时 间 。 
为 三 个 版 本 对 着 词组 长 度 绘制 响应 时 间 。 为 了 更 清晰 ， 你 应 该 将 线性 扫 措 的 结果 与 其 他 两 个 方法 分 开 绘 制 。 

选择 另外 一 个 所 有 长 度 都 为 2 的 词组 集合 。 包 括 频繁 和 不 频繁 的 词 项 。 为 三 个 版 本 对 着 工 〈 最 长 位 置 
信息 列表 的 长 度 ) 绘制 响应 时 间 。 为 三 个 版 本 对 着 ; (最 短 位 置信 息 列表 的 长 度 ) 绘制 响应 时 间 。 

选 做 : 实现 练习 2. 6 中 描述 的 词组 查找 算法 ， 用 这 个 新 算法 重复 以 上 性 能 评价 过 程 。 

练习 2. 12 (项 目 练习 ) 实现 2. 2. 1 节 中 描述 的 余弦 相似 度 排 名 算法 。 用 练习 2. 13 中 产生 的 测试 文档 
集 或 任何 其 他 可 用 测试 集 ， 如 TREC 文档 集 ， 来 测试 你 实现 的 算法 。 

练习 2. 13 (项 目 练习 ) 作为 一 个 班级 项 目 ， 基 于 Wikipedia 构造 一 个 测试 文档 集 ， 进 行 一 个 类 似 于 
TREC 风格 的 特定 检索 实验 。 继 续 练习 1.9 和 1.10， 每 个 学 生 都 贡献 足够 的 主题 ， 使 得 主题 总 数 达 到 50 个 
或 更 多 。 每 个 学 生 可 以 实现 他 自己 的 检索 系统 ， 可 从 一 个 开源 的 信息 检索 系统 开始 ， 使 用 后 面 章节 介绍 的 
技术 再 逐步 扩展 它 ， 或 是 使 用 学 生 自 己 发 明 的 新 技术 。 每 个 学 生 都 应 在 他 自己 的 系统 上 将 主题 题目 作为 查 
询 来 运行 。 将 这 些 结果 保存 进 缓冲 池 并 进行 判断 ， 每 个 学 生 都 判断 他 创建 的 那个 主题 。 交 互 判断 界面 的 设 
计 和 实现 也 可 以 作为 一 组 感 兴趣 学 生 的 子 项 目 。 用 trec_eval 来 比较 运行 结果 和 技术 。 
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词 条 与 词 项 


词 条 (token) 在 查询 与 文档 之 间 建 立 了 联系 的 桥梁 。 在 索引 过 程 中 ， 信 息 检 索 系 统 将 
每 个 文档 划分 为 一 系列 的 词 条 序列 ， 并 且 将 它们 揪 人 为 了 搜索 而 建立 的 倒 排 索引 中 。 在 查询 
时 ， 查 询 也 要 进行 相应 的 分 词 。 分 词 后 的 查询 词 项 与 倒 排 索引 是 否 匹 配 将 最 终 影响 检索 和 排 
名 的 效果 。 

第 1 章 介 绍 了 对 原始 文本 进行 分 词 的 一 些 简 单 规则 : 词 条 是 由 非 字母 数字 序列 隔 开 的 字 
母 数 字 序 列 。 词 条 要 进行 大 小 写 规范 化 〈case normalized) ， 即 将 大 写字 母 转换 为 小 写字 母 。 
此 外 ， 忽 略 完整 XML 的 复杂 性 一 一 简单 地 将 XML ÆA name) 和 (/name) 视 为 词 条 。 

尽管 这 些 简 单 的 规则 足以 用 来 应 付 本 书 中 介绍 的 实验 ， 但 实际 应 用 中 需要 更 复杂 的 分 词 
规则 。 例 如 ， 根 据 简单 的 规则 ，“didn't” 将 被 表示 为 词 条 对 “didn t”， 这 无 法 与 搜索 词组 
“did not” 的 查询 匹配 。 数 字 “10 000 000” 分 词 后 可 表示 为 三 个 词 条 “10 000 000”， 其 中 
第 一 部 分 将 错误 地 与 查询 词 项 “10” 匹 配 。 

并 且 ， 在 使 用 这 些 简 单 规则 时 ， 明 确 地 假定 原始 文本 是 用 英文 书写 的 ， 并 采用 ASCII 
编码 。 在 这 些 规则 里 ,“ 字 母 数字 ”的 定义 里 不 包含 字母 8 和 数字 “ 八 ”， 因 为 这 些 字符 都 不 
能 用 ASCII 表示 。 即 便 是 英文 单词 “naive” 也 不 能 用 ASCII 值 正确 表示 。 

在 大 多 数 实际 环境 中 ,信息 检 索 系 统 必须 为 英语 以 外 的 其 他 语言 提供 一 定 的 支持 。 为 了 
支持 大 多 数 人 类 语言 ， 需 要 考虑 每 一 种 语言 的 特点 ， 包 括 它们 的 字符 集 和 分 词 规则 。 粗 略 地 
说 ,分 词 是 将 文档 划分 为 词 (word) 的 过 程 。 尽 管 在 人 类 语言 中 ， 词 的 概念 本 质 上 是 通用 
的 “Trask，2004)， 但 在 不 同 的 语言 中 ， 词 的 特征 有 着 明显 差异 。 一 个 词 不 一 定 是 一 个 词 
条 ， 一 个 词 条 也 不 一 定 是 一 个 词 。 

本 章 先 重 温 一 下 英文 的 分 词 和 词 项 匹配 问题 ， 接 着 将 讨论 延伸 到 其 他 语言 。 主 要 关注 文 
档 的 内 容 ， 而 将 XML 和 其 他 文档 结构 的 复杂 性 留待 第 5 章 和 第 16 章 中 讨论 。 分 词 中 一 些 
微小 的 细节 对 特定 查询 的 检索 效果 也 会 产生 重大 的 影响 。 为 了 得 到 正确 结果 ， 需 要 谨慎 考虑 
这 些 特 定 查询 ， 以 及 在 整体 上 衡量 检索 效果 。 

3. 1 节 涵 盖 了 英文 中 与 分 词 紧密 相关 的 两 个 传统 的 信息 检索 主题 : WFRM (stem 
ming) 和 停 词 (stopping) 。 词 干 提 取 通 过 将 查询 词 项 缩减 为 它们 的 公共 词根 ， 使 得 “orien- 
teering” 可 以 匹配 “orienteers”。 停 词 反 映 了 对 多 数 常 用 词 的 观察 ， 如 “the” 和 “I”， 它 们 
对 检索 而 言 没 有 什么 价值 。 忽 略 这 些 停 用 词 (stopword) 能 够 提高 检索 效率 并 缩小 倒 排 索 引 
的 规模 。 

3. 2 节 讨 论 了 字符 编码 问题 ， 包 括 Unicode 和 UTF-8 的 基础 知识 。3. 3 节 介 绍 了 字符 
n-gram 索引 ， 它 是 信息 检索 系统 能 够 支持 新 语言 的 基础 。 字 符 n-gram 索引 也 可 作为 一 种 
对 噪音 文本 分 词 的 方法 ， 如 由 OCR (光学 字符 识别 ) 系统 产生 的 文本 。 本 章 最 后 部 分 讨论 
了 许多 欧洲 和 亚洲 语言 的 分 词 方法 及 与 此 相关 的 难题 。 


3.1 英语 


英语 为 理解 分 词 和 词 项 匹配 提供 了 一 个 很 好 的 切 人 点 。 作 为 本 书 的 读者 ， 对 英语 必须 要 
熟悉 。 它 是 最 广泛 使 用 的 语言 之 一 ， 以 英语 为 母语 的 人 数 以 亿 计 。 另 有 好 几 亿 的 人 将 其 作为 
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第 二 或 第 三 语言 来 学 习 。 在 Web 上 ， 英 文 内 容 占 了 绝对 支配 的 地 位 。 因 此 ， 对 英语 提供 有 
效 支持 是 许多 信息 检索 系统 最 基本 的 需求 。 


3.1.1 标点 与 大 写 


英语 存在 着 许多 能 够 导致 微妙 的 分 词 问 题 的 特征 。 其 中 很 多 都 与 标点 符号 以 及 大 写 有 
关 。 英 文中 ， 一 个 特定 的 标点 符号 可 以 用 于 许多 毫 不 相关 的 场合 。 例 如 前 面 已 经 提 到 过 的 如 
“Tl”, “it’s” 中 的 撤 号 ， 合 理 的 分 词 是 “I will” 和 “it is”， 而 不 是 “I 11” 和 “it s”。 然 而 ， 
撤 号 同样 也 可 以 用 在 如 “o’clock” 和 “Bill's” 这 样 的 结构 中 。 第 一 个 最 好 将 它 看 做 是 一 个 
词 条 ， 而 不 是 两 个 ， 因 为 与 “clock” 匹 配 并 不 恰当 。 而 对 于 “Bill's”， 如 果 与 “bill” 的 匹 
配合 理 ， 那 么 ， 就 应 该 作为 两 个 词 条 来 索引 。 

句点 通常 用 于 结束 句子 。 然 而 ， 也 可 以 出 现在 缩 略语 、 数 字 、 字 母 、 因 特 网 地 址 以 及 其 
他 的 内 容 中 。“LB.M” 和 “U.S.” 这 两 个 缩 略语 也 可 以 写成 “IBM” 和 “US”。 信 息 检索 系 
统 应 对 这 样 的 缩 略 语 进行 一 致 的 识别 和 分 词 ， 使 得 查询 “IBM” 可 以 匹配 以 上 两 种 形式 。 标 
点 符号 同样 也 可 以 作为 公司 或 组 织 名 称 的 一 部 分 ， 例 如 “Yahool” 和 “Panic! At the Dis- 
co”。 对 于 小 部 分 的 词 项 ， 如 “C 十 十 ”、“C#” 和 “\ index” (XTEX 中 的 一 个 命令 )， WE 
确 地 处 理 词 项 中 的 标点 符号 可 能 会 使 整个 查询 结果 变 得 毫 无 用 处 。 然 而 对 于 大 多 数 的 查询 来 
说 ， 可 以 安全 地 忽略 标点 符号 。 

另 一 方面 ， 大 小 写 规范 化 (即将 索引 和 查询 中 的 所 有 大 写字 和 母 都 转换 成 小 写 ) 会 影响 几 
乎 每 一 个 查询 。 在 很 多 语言 中 ,句子 中 第 一 个 词 的 首 字 母 往往 是 大 写 的 ， 即 使 用 户 用 小 写 输 
人 查询 〈 很 多 用 户 都 是 这 人 么 做 的 )， 也 希望 能 找到 对 应 的 词 。 遗 憾 的 是 ， 对 很 多 词 项 来 说 ， 
字母 的 大 写 直 接 决 定 着 这 个 词 项 的 本 意 ， 因 此 大 小 写 规范 化 将 会 导致 潜在 的 危害 。 例 如 ， 缩 
KA US” ARR “us”, RARA “THE” 与 英语 中 的 定 冠 词 “the*"， 只 有 大 写 能 将 它 
们 区 分 开 来 。 

处 理 缩 略 语 以 及 类 似 分 词 问题 的 一 种 简单 的 启发 式 方法 就 是 双 路 索引 (double index) 
这 些 词 项 。 例 如 ， 缩 略语 “US” 的 每 一 次 出 现 位 置 都 被 索引 两 次 。 倒 排 索引 中 将 同时 包含 
“us” Al “US” 的 位 置信 息 列 表 。 缩 略语 “US” 的 每 一 次 出 现 位 置 会 同时 记录 在 这 两 个 列 
表 中 ， 然 而 代词 “us” 的 出 现 位 置 只 记录 在 第 一 个 列表 中 I us 对 应 的 位 置信 息 列 表 一 一 
译 者 注 ) 。 包 含 词 项 “us” 的 查询 将 用 第 一 个 列表 来 处 理 ， 包 含 词 项 “US” (也 可 能 是 
“U.S. 的 查询 将 用 第 二 个 列表 来 处 理 。 双 路 索引 也 支持 正确 的 人 名 索引 ， 可 以 将 人 名 
“Bil” 与 “bil”( 即 发 票 ) 区 别 开 来 。 

当 为 大 写 及 标点 调整 分 词 过 程 时 ， 必 须 非常 谨慎 。 调 整 分 词 过 程 而 产生 的 影响 往往 是 好 
坏 参半 的 。《 终 结 者 》 (1984) 这 部 电影 的 影迷 能 立即 反应 出 “Il be back” 与 “1 will be 
back” 的 匹配 是 不 恰当 的 。 有 时 ， 全 部 大 写 的 文本 (WRITTEN ENTIRELY IN CAPITAL 
LETTERS) 可 能 是 意外 或 是 作者 用 来 表达 自己 内 心情 绪 的 一 种 方法 。 这 样 的 文本 不 能 看 做 
是 一 个 由 缩 略 语 和 缩写 组 成 的 长 序列 。 这 个 句子 中 的 词 项 “IN” 并 不 是 指 美国 的 印第安 纳 
州 ， 这 篇 文档 也 不 是 讲 关 于 印第安 纳 州 首府 的 。 无 论 使 用 什么 样 的 信息 检索 技术 ， 都 必须 从 
有 效 性 和 效率 的 整体 影响 来 评价 分 词 。 


© THE 是 一 个 操作 系统 ， 是 多 道 程序 设计 的 开 河 先锋 ， 由 图 灵 奖 获得 者 Edsger Dijkstra 和 他 的 同事 于 20 世纪 60 年 
代 中 期 在 埃 因 震 芬 理 工大 学 创建 。 


60 .第 一 部 分 基础 知识 


3.1.2 WFR 


词 干 提取 使 得 例如 “orienteering” 能够 匹配 “orienteers”， 或 “runs” 能 够 匹配 “run- 
ning”。 词 干 提取 考虑 词 项 的 词法 (morphology) 或 内 部 结构 ， 为 了 方便 比较 ,将 每 一 个 词 
项 缩减 到 词根 形式 。 例 如 “orienteering” 和 “orienteers” 可 以 缩减 到 词根 形式 “orien- 
teer”, “runs” 和 “running” 可 以 缩减 到 “run”。 

在 信息 检索 系统 中 ， 索 引 和 查询 时 都 会 用 到 词 干 提取 器 〈stemmer) 。 在 索引 阶段 ， 每 
一 个 词 条 都 经 过 词 干 提取 器 ， 输 出 的 词根 用 于 建立 索引 。 在 查询 阶段 ， 每 一 个 查询 词 项 也 都 
经 过 同一 个 词 干 提取 器 处 理 ， 并 与 索引 词 项 进行 匹配 。 因 此 查询 词 项 “runs” 会 与 “run- 
ning” 匹 配 ， 因 为 这 两 个 词 有 共同 的 词根 “run”。 

词 干 提取 与 语言 学 中 的 词 形 归并 Cemmatization) 概念 相关 。 词 形 归 并 将 每 一 个 词 项 缩 
减 到 词 位 〈lexeme) ， 大 致 对 应 了 作为 字典 条 目的 一 个 单词 。 每 一 个 词 位 都 有 一 个 特定 形式 
的 单词 ， 或 词 元 〈lemma) ， 来 代表 它 。 词 元 是 指 查 字 典 时 所 用 的 单词 形式 。 例 如 “run” i 
常用 来 表达 一 组 单词 ， 包 括 “runs”“running” 和 “ran” 等 。 

词 干 提取 与 词 形 归 并 有 时 候 是 等 同 的 ， 但 是 这 种 观点 具有 一 定 的 误导 性 。 严 格 地 说 ， 词 
干 提取 是 一 个 操作 过 程 。 当 词 干 提取 器 将 一 个 词 项 转换 成 它 的 词根 形式 时 ， 我 们 不 直接 关注 
这 种 转换 的 语言 学 效率 ， 只 关心 它 对 特定 查询 检索 效率 的 影响 。 

Porter 词 干 提 取 器 是 最 有 名 的 英文 词 干 提取 器 之 一 〈Porter，1980) ， 由 Martin Porter 
在 20 世纪 70 年 代 后 期 提出 。 图 3-1 展示 了 著名 的 Hamlet 独白 开场 部 分 在 使 用 了 Porter ia] 
干 提取 器 前 后 的 对 比 。 在 使 用 词 干 提取 器 之 前 ， 这 一 段 文本 去 除了 标点 符号 和 进行 了 大 小 写 
规范 化 。 正 如 你 从 图 中 看 到 的 那样 ， 这 个 词 干 提取 器 会 产生 根本 不 是 英文 单词 的 词根 形式 。 
例如 ，“troubles” 词 干 提取 结果 为 “troubl”。 这 种 做 法 实际 上 不 会 产生 什么 问题 ， 因 为 这 
些 词根 形式 对 用 户 来 说 是 不 可 见 的 。 查 询 中 的 词 项 “troubling” 也 会 被 提取 为 “troubl”， 
这 样 就 能 产生 正确 的 匹配 。 


原文 

To be, or not to be: that is the question: 
Whether ’tis nobler in the mind to suffer 

The slings and arrows of outrageous fortune, 

Or to take arms against a sea of troubles, 

And by opposing end them? To die: to sleep; 

No more; and by a sleep to say we end 

The heart-ache and the thousand natural shocks 
That flesh is heir to, ’tis a consummation 
Devoutly to be wish’d. To die, to sleep; 

To sleep: perchance to dream: ay, there’s the rub; 











规范 化 后 规范 化 和 词 干 提取 后 

to be or not to be that is the question to be or not to be that is the question 
whether tis nobler in the mind to suffer whether ti nobler in the mind to suffer 

the slings and arrows of outrageous fortune the sling and arrow of outrag fortun 

or to take arms against a sea of troubles or to take arm against a sea of troubl 

and by opposing end them to die to sleep and by oppos end them to die to sleep 

no more and by a sleep to say we end no more and by a sleep to sai we end 

the heart ache and the thousand natural shocks the heart ach and the thousand natur shock 
that flesh is heir to tis a consummation that flesh is heir to ti a consumm 

devoutly to be wish d to die to sleep devoutli to be wish d to die to sleep 

to sleep perchance to dream ay there s the rub to sleep perchanc to dream ay there s the rub 





图 3-1 Hamlet 独白 的 开始 部 分 。 最 上 面 是 原始 文本 ， 左 下 角 是 经 过 大 小 写 规范 化 和 去 除 标点 
后 的 版 本 ， 右 下 角 是 经 过 了 Porter 词 干 提取 器 的 版 本 
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Porter 词 干 提取 器 有 时 候 又 太 过 头 了 。“orienteering” 和 “orienteers” 都 被 会 提取 为 
“orient?” TJE “orienteer”, WM “oriental” 同样 被 提取 为 “orient”， 这 样 ， 这 些 词 项 就 被 
混为一谈 了 。 此 外 ， 该 词 干 提取 器 不 能 正确 处 理 不 规则 动词 和 复数 形式 。“runs” 和 “run- 
ning” 都 被 提取 为 “run”， 但 不 规则 动词 形式 “ran” 还 是 被 提取 为 “ran” (RÆ), BW 
地 ,“mouse” 被 提取 为 “mous”， 但 “mice” 仍 然 还 是 “mice”。 此 外 ， 这 个 词 干 提 取 器 只 
处 理 后 级。 如 “un?” “re” 的 前 缀 不 会 被 移 除 。 

这 个 词 干 提取 器 使 用 多 组 重 写 规 则 ， 分 成 几 步 来 处 理 。 例 如 ， 第 一 组 重 写 规则 〈 构 成 步 
Bla) 按 如 下 形式 处 理 复数 形式 : 


sses 一 SS 
les — i 
SS — SS 


在 运用 规则 时 ， 规 则 左边 的 模式 与 词 项 的 当前 后 缀 做 匹配 。 如 果 后 缀 匹配 成 功 ， 则 通过 将 后 
缀 去 除 并 蔡 代 为 这 个 规则 右边 的 模式 来 重 写 这 个 后 级 。 因 此 ， 应 用 这 些 规则 中 的 第 一 条 规 
则 ，“caresses” 将 会 被 重 写 成 “caress”"， 应 用 第 二 条 规则 ，“ponies” 将 会 被 重 写 为 “poni” 
(而 不 是 “pony”)。 列 表 中 只 有 第 一 条 匹配 规则 会 起 作用 。 第 三 条 规则 看 上 去 似乎 什么 都 没 
做 ， 实际 上 它 能 够 阻止 那些 具有 “ss” 后 缀 的 词 (比如 “caress” 被 第 四 条 规则 重 写 。 最 后 
一 条 规则 简单 地 移 除 词 项 最 后 的 “s”， 将 “cats” 重 写 为 “cat”。 总 的 来 说 ， 这 个 算法 有 5 
个 主要 步骤 ， 有 一 些 会 有 子 步 又， 总 共有 9 组 规则 ， 最 长 的 包含 20 条 规则 。 

词 干 提取 器 的 应 用 可 提高 查 全 率 ， 从 而 检索 到 更 多 的 文档 ， 但 不 恰当 的 匹配 和 对 不 相关 
的 文档 赋予 高 分 都 会 导致 查 准 率 降 低 。 但 是 ， 在 一 个 典型 的 TREC 实验 上 的 平均 数值 来 看 ， 
词 干 提取 通常 还 是 会 显著 提升 查 准 率 的 。 表 3-1 给 出 了 在 第 1 章 讨论 的 测试 集 上 使 用 Porter 
词 干 提取 器 后 的 影响 。 表 中 的 值 可 直接 与 表 2-5 作 比较 。 对 于 这 四 个 数据 集 ， 词 于 提取 能 够 
提升 检索 有 效 性 。 这 些 实验 结果 表明 ， 如 果 你 正在 参与 一 个 类 似 于 TREC 的 实验 ， 那么 使 
用 词 干 提取 将 会 是 一 个 很 好 的 想法 。 


表 3-1 词 干 提取 的 影响 。 表 中 列 出 了 本 书 中 讨论 到 的 各 种 检索 方法 的 有 效 性 指标 。 表 




















中 的 值 可 与 表 2-5 作 比 较 
TREC45 Gov2 
方法 

PG@10 MAP 
邻近 度 (2.2.2) | 0.418 0.283 
BM25 (Ch. 8) 0.440 0.334 
LMD (Ch. 9) 
DFR (Ch. 9) 








当 词 干 提取 出 现 错 误 时 ， 会 给 系统 带 来 严重 的 负面 影响 。 例 如 ，TREC 主题 314 “ma- 
rine vegetation” (海洋 植被 ) 使 用 Porter 词 干 提取 器 之 后 变 为 “marin veget”, RHE, 
“marinated vegetables” (EHHI) 也 被 提取 为 同样 地 词根 形式 。 如 果 信 息 检 索 系统 将 食 
谱 、 和 餐厅 评论 连同 (或 者 是 ) 海洋 植物 学 方面 的 文章 一 同 返 回 作为 这 个 查询 的 检索 结果 ， 用 
户 可 能 会 感到 吃惊 和 迷惑 。 因 为 不 知道 为 什么 她 的 查询 会 检索 出 这 样 的 文档 。 在 她 看 来 ， 系 
统 可 能 坏 了 或 是 存在 漏洞 。 即 便 是 她 知道 导致 这 个 问题 的 原因 ， 她 也 不 知道 如 何 解决 ， 除非 
有 方法 可 以 明确 禁用 当前 的 这 个 词 干 提取 器 。 

对 于 研究 而 言 ， 词 干 提取 还 是 很 合适 的 。 对 于 一 个 如 TREC 实验 的 参与 者 来 说 ， 几 乎 
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不 需要 额外 再 做 什么 ， 词 干 提取 就 能 显著 提高 性 能 。 然 而 ， 在 更 加 现实 的 环境 中 ， 任 何 有 可 
能 会 产生 令 人 费解 的 错误 的 分 词 方法 ， 都 会 被 谨慎 地 处 理 。 在 将 词 二 提取 器 集成 到 信息 检索 
系统 之 前 ， 应 该 认真 考虑 可 能 带 来 的 负面 作用 。 


3.1.3 Bil 


虚词 (function word) 是 那些 本 身 没 有 明确 意义 的 词 ; 相反 ， 它 们 用 来 修饰 其 他 单词 或 
指示 语法 关系 。 英 文中 ， 虚 词 包 括 介词 、 冠 词 、 代 词 以 及 连词 。 在 任何 语言 中 ， 虚 词 通常 都 
是 出 现 最 频繁 的 词 。 图 1-1 中 的 词 〈 相 对 于 XML 标签 来 说 ) 都 是 虚词 。 

当 文 档 被 视 为 无 结构 的 “ 词 袋 ”时 ， 就 如 在 向 量 空间 模型 中 那样 ， 查 询 中 包含 虚词 是 不 
必要 的 。 即 使 在 邻近 度 模型 中 ， 给 定 普 通 文本 中 所 有 虚词 的 频率 ， 某 个 特定 虚词 与 其 他 查 
询 词 项 非常 邻近 也 是 很 常见 的 。 因 此 信息 检索 系统 通常 会 定义 一 个 停 用 词 (stopword) 
表 ， 其 中 常常 包括 虚词 。 在 查询 阶段 ， 会 从 查询 中 去 掉 这 些 停 用 词 ， 检 索 只 在 剩 下 的 词 
项 中 进行 。 

考虑 查询 中 词 项 “the” 的 出 现 。 在 英文 文本 中 大 约 6 旬 的 词 条 会 与 这 个 词 项 匹配 。 同 
样 ， 大 约 2% 的 词 条 会 与 词 项 “of” 匹 配 。 几 乎 每 一 个 英文 文档 都 包含 这 两 个 词 项 。 如 果 一 
个 用 户 查 找 与 “the marriage of William Shakespeare” 相 关 的 信息 ， 信 息 需 求 将 简化 为 查询 
(“marriage”, “william”, “shakespeare” “of” 和 “the” 被 视 为 停 用 词 一 一 不 会 对 检 
索 效果 产生 任何 负面 影响 。 

除 虚 词 外 ， 停 用 词 表 中 还 包括 单个 的 字母 、 数 字 以 及 其 他 常见 词 项 ， 如 be 动词 。 在 
Web 这 个 特殊 的 应 用 环境 中 ， 停 明 词 表 中 可 能 还 包括 如 “www”、“com”、“http” 这 种 基本 
在 上 下 文中 没有 任何 意义 的 词 项 。 根 据 不 同 的 信息 检索 系统 和 具体 的 应 用 环境 ， 停 用 词 表 的 
大 小 可 能 从 十 几 个 到 好 几 百 个 。 去 掉 了 典型 停 用 词 之 后 ， 图 3-1 中 的 文本 缩减 成 如 下 

question . 

ti nobler mind suffer 

sling arrow outrag fortun 

take arm sea troubl 

oppos end die sleep 

sleep sai end 

heart ach thousand natur shock 

flesh heir ti consumm 

devoutli wish die sleep 

sleep perchanc dream ay rub 

因为 停 用 词 通常 都 是 频繁 词 ， 对 应 较 长 的 位 置信 息 列表 ， 所 以 去 除 这 些 停 用 词 可 以 避免 
处 理 这 些 很 长 的 列表 ， 从 而 能 够 显著 地 减少 查询 的 执行 时 间 。 而 且 ， 如 果 所 有 查询 中 的 停 用 
词 都 去 掉 ， 那 么 它们 就 不 必 包 含 在 索引 中 。 在 早期 的 信息 检索 系统 里 ， 消 除 停 用 词 为 减少 索 
引 规模 带 来 了 好 处 ， 一 个 很 重要 的 考虑 是 当时 的 磁盘 和 内 存 非常 小 而 且 吊 贵 。 

遗憾 的 是 ， 一 小 部 分 的 查询 还 是 受到 了 停 用 词 消除 的 影响 ， 通 常 这 时 停 用 词 是 一 个 词组 
中 的 重要 部 分 。 在 Hamlet 独白 中 的 “to be or not to be that is the” 就 是 一 个 很 著名 的 例 
子 。 我 们 立即 就 能 识别 出 这 个 引用 句 全 部 由 典型 的 停 用 词 构成 。 乐 队 “The The” 是 另外 一 
个 例子 一 一 也 进一步 说 明了 大 写 的 重要 性 。 尽 管 你 可 以 将 这 些 例子 看 做 是 很 极端 的 情况 一 一 
它们 确实 也 是 一 一 但 搜索 引擎 仍 应 以 合理 的 方式 处 理 它们 。 

为 了 处 理 类 似 的 情况 ， 建 议 索 引 中 还 是 包含 停 用 词 。 依 赖 具 体 的 检索 算法 ， 当 这 些 停 用 
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词 的 出 现 所 起 的 正面 影响 很 小 的 时 候 ， 可 以 考虑 选择 性 地 将 它们 从 查询 中 去 除 。 当 索引 中 包 
含 停 用 词 时 ， 信 息 检索 系统 可 以 具体 情况 具体 分 析 。 现 代 商 业 搜 索引 擎 中 的 排名 方法 融合 了 
许多 排名 特征 ， 包 括 基 于 词 频 和 邻近 度 的 特征 。 对 于 不 考虑 查询 词 项 间 邻 近 度 的 特征 ， 可 以 
将 停 用 词 去 掉 。 对 于 考虑 查询 词 项 间 邻 近 度 的 特征 ， 特 别 需要 匹配 它们 在 词组 中 的 出 现 位 置 
时 ， 最 好 是 保留 停 用 词 。 


3.2 字符 


对 原始 文本 进行 分 词 需 要 理解 字符 是 如 何 编 码 的 。 目 前 为 止 ， 本 书 默认 地 假定 文本 字符 
用 7 位 的 ASCII 值 编码 。ASCII 足以 用 来 编码 英文 文本 中 的 大 多 数字 符 ， 包 括 大 小 写字 母 、 
数字 以 及 许多 标点 符号 。 

尽管 对 于 英文 来 说 ，ASCII 编码 是 可 接受 的 ,但 是 对 于 多 数 其 他 语言 来 说 它 还 远 远 不 
够 。1963 年 ASCII 被 标准 化 ， 在 那个 时 候 内 存 还 很 昂贵 ， 网 络 也 还 是 一 个 梦想 ， 说 英语 的 
国家 是 计算 设备 的 主要 市 场 。 支 持 其 他 语言 作为 一 个 需求 已 在 一 个 个 国家 或 地 区 的 基础 上 展 
开 。 通 常 ， 这 些 特殊 的 字符 编码 都 不 能 完全 支持 它们 的 目标 语言 。 对 于 某 些 语言 ， 不 同 的 硬 
件 厂 商 为 不 同 的 国家 或 地 区 开发 了 不 兼容 的 编码 形式 。 光 是 英文 ，IBM 的 扩充 的 二 进 制 编 
人 码 的 十 进 制 交换 码 (Extended Binary Coded Decimal Interchange Code, EBCDIC) 就 是 
ASCII 的 一 个 强 有 力 的 竞争 对 手 。 

进步 虽然 缓慢 ， 但 到 了 20 世纪 80 年 代 晚 期 ， 人 们 还 是 努力 创建 了 一 种 统一 的 字符 编码 
方法 ， 能 够 容纳 所 有 使 用 中 的 语言 〈 甚 至 最 终 包括 许多 消失 了 的 语言 ) 。 现 在 Unicode? prt 
为 大 部 分 的 语言 提供 了 字符 编码 方式 ， 并 且 涵 盖 的 语言 越 来 越 多 。 除 了 简单 实验 用 的 信息 检 
索 系 统 ， 支 持 Unicode 对 信息 检索 系统 来 说 是 非常 重要 的 。 尽 管 许多 文档 仍然 使 用 其 他 的 编 
码 方法 ， 但 是 它们 都 能 转化 为 Unicode。 为 Unicode 提供 简单 的 支持 使 得 信息 检索 系统 得 以 
成 长 ， 并 容纳 更 多 需要 的 新 语言 。 

Unicode 给 每 个 字符 分 配 一 个 唯一 的 值 ， 称 为 码 点 (codepoint)， 但 并 不 指定 如 何 用 这 
些 值 来 表示 原始 文本 。 码 点 的 形式 为 Utnnnn ， 其 中 nnnn 指 的 是 这 个 码 点 的 十 六 进 制 
值 。 例 如 ， 字 符 6 用 码 点 U 十 03B2 来 表示 。Unicode 目前 支持 超过 100 000 个 字符 ， 码 点 值 
的 范围 超出 了 U 十 2F800。 

UTF-8， 一 个 与 Unicode 相关 的 标准 ， 是 种 使 用 码 点 来 代表 原始 文本 的 简便 方法 ， 
管 有 许多 表示 Unicode 的 方法 ,但 UTF-8 具有 几 大 优势 ， 包 括 向 后 兼容 ASCH. UTF-8 用 
1 一 4 字 节 来 表示 一 个 码 点 。 每 个 出 现在 ASCII 字符 集中 的 字符 都 被 编码 为 一 个 字 节 ， 与 对 
-应 的 ASCII 编码 值 一 样 。 因 此 用 ASCI 编码 的 原始 文本 也 自动 成 为 UTF-8 编码 的 原始 
文本 。 

尽管 UTF-8 为 每 个 字符 采用 一 种 变 长 的 编码 方式 ， 但 是 这 种 编码 方法 却 很 直观 ， 第 一 
个 字 节 的 高 位 表示 了 编码 的 长 度 。 如 果 最 高 有 效 位 为 0， 那么 这 个 字 节 的 形式 为 
它 的 值 由 后 7 位 表示 ， 它 同时 也 
代表 了 具有 相同 7 位 ASCII 值 的 那个 字符 。 例 如 ，UTF-8 中 的 字 节 01100101 代表 了 字符 
“e”(〈U 十 0065) ， 与 “e” 的 ASCI 表示 形式 一 样 。 

如 果 第 一 个 字 节 的 最 高 有 效 位 是 1， 编码 长 度 就 为 2 一 4 字 节 ， 接 下 来 的 字 节 位 就 指示 
了 用 一 元 编码 的 长 度 。 因 此 ， 两 字 节 的 编码 的 第 一 个 字 节 形式 为 110xxxxx， 三 字 节 的 编码 的 
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第 一 个 字 节 形式 为 1110xxxx， 四 字 节 的 编码 的 第 一 个 字 节 形式 为 11110xxx。 一 个 多 字 节 编 
码 的 第 二 个 及 其 后 字 节 的 形式 都 为 0xxxxxx。 通 过 检测 任意 字 节 的 两 个 最 高 有 效 位 ， 可 以 
判断 该 字 节 是 否 为 一 个 编码 的 起 始 字 节 。 l 

因为 首 字 节 的 最 高 有 效 位 被 占用 了 ， 所 以 二 至 四 字 节 编码 的 码 点 值 由 后 面 未 被 占用 的 位 
来 决定 。 两 字 节 的 编码 能 表示 范围 U 十 0080 一 U 十 07FF 内 的 码 点 ， 三 字 节 的 编码 能 表示 范 
围 U+0800~U-+FFFF 内 的 码 点 ， 四 字 节 的 编码 能 表示 U 十 10000 及 以 上 范围 内 的 码 点 。 
例如 ， 三 字 节 编码 统一 具有 以 下 形式 : 

1110xxxx lOyyyyyy 10zzzzzz 
并 代表 16 位 值 xxxxyyyyyyzzzzzz。 字 符 “ 八 ”的 码 点 为 U 十 516B， 用 二 进 制 表示 为 
01010001 01101011。 在 UTF-8 中 ， 这 个 字符 将 会 被 编码 为 三 个 字 节 ，11100101 10000101 10101011。 


3.3 字符 n-gram 


将 字符 串 转 化 为 用 于 索引 的 词 条 序列 的 难度 取决 于 底层 语言 的 细节 。 词 的 识别 以 及 提取 的 过 
程 因 语言 的 不 同 而 千差万别 。 字 符 n-gram (n 元 文法 ) 是 另外 一 种 复杂 的 特定 于 语言 的 分 词 技 
术 。 本 节 将 以 英文 为 例 来 讲解 这 一 技术 。 后 面 的 章节 会 将 这 一 技术 应 用 到 其 他 语言 中 。 

使 用 这 种 技术 ， 简 单 地 将 n 个 字符 的 重 炙 序列 视 为 词 条 。 例 如 ， 当 n=5 时 ， “orien 
teering” 将 会 被 分 割 为 以 下 的 5-gram: 

- _orie orien rient iente entee nteer teeri eerin ering ring_ 
下 划 线 “_” 指 示 一 个 词 的 开始 和 结束 。 索 引 时 为 每 一 个 唯一 的 %-gram 建立 一 个 位 置信 息 
列表 。 在 查询 阶段 ， 查 询 也 相应 地 划分 为 n-gram。 使 用 这 种 技术 ,一 个 三 字符 单词 如 
“the” 将 被 索引 为 5-gram“_the ”。 对 于 两 字符 和 一 字符 的 词 ， 用 一 点 小 技巧 ， 将 “of” 案 
引 为 “ of_”，“a” 索 引 为 “_a_”。 

AME, n-gram 索引 方法 不 用 考虑 标点 、 大 写 、 空 格 以 及 其 他 语言 特征 。 尽 管 % 的 最 
优 取 值 因 语 言 不 同 而 不 同 ， 但 是 这 种 方法 是 独立 于 特定 语言 的 。 只 需要 将 文档 划分 为 n- 
gram， 建 立 索 引 ， 然 后 再 处 理 查询 就 可 以 了 。 实 际 上 ，?%-gram 索引 还 是 会 考虑 语言 的 一 些 
基本 特征 。 对 英文 来 说 ， 我 们 去 掉 标 点 并 进行 大 小 写 规范 化 。 

如 果 没 有 词 干 提取 器 ，%-gram 可 以 替代 词 干 提取 器 。 对 于 许多 语言 来 说 ， 两 个 词 项 拥 
有 相同 的 n-gram 的 数量 可 以 反映 出 它们 的 词 形 “orienteers” 与 “orienteering” 匹 配 的 5- 
gram 的 数量 要 比 “orienteers” 与 “oriental” 多 。 

对 英文 来 说 ，n-gram 索引 没有 显著 的 影响 。 表 3-2 给 出 了 在 标准 实验 文档 集中 使 用 5- 
gram 索引 的 效果 。 表 中 结果 可 与 表 2-5 和 表 3-1 中 的 结果 作 比 较 。 与 表 2-5 比较 起 来 ， 结 果 有 
些 混乱 。 有 些 好 一 点 ， 有 些 糟 一 点 。 从 下 一 节 中 会 看 到 ， 在 其 他 语言 上 的 效果 会 不 太一 样 。 

表 3-2 5-gram 索引 的 影响 。 该 表 列 出 了 本 书 中 讨论 到 的 检索 方法 的 有 效 性 评 指标 。 表 
中 的 结果 可 与 表 2-5 和 表 3-1 中 的 结果 作 比 较 
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n-gram 索引 的 代价 是 增加 了 索引 规模 但 降低 了 效率 。 表 3-2 中 的 文档 集 上 建立 的 压缩 索 
引 比 相应 的 基于 单词 的 索引 大 了 6 倍 在 一 个 典型 的 英文 文本 集中 ， 一 个 单词 平均 由 6 个 字 
符 组 成 )。 查 询 执 行 时 间 由 此 会 增加 30 倍 或 以 上 ， 因 为 每 个 查询 〈 分 词 后 ) 的 词 项 数 及 其 位 
置信 息 列 表 长 度 都 增加 了 。 

n-gram 索引 可 进一步 扩展 。 在 英文 中 ， 单 词 由 空格 和 标点 来 分 隔 ，n-gram 可 以 跨越 
词 的 边界 ， 使 得 可 以 捕捉 到 词组 之 间 的 关系 。 例 如 ， 片 段 “.…perchance to dream…” 将 被 
划分 为 如 下 的 5-gram: 


-perc perch ercha rchan chanc hance ance- nce.t ce_to e_to_ _to_d to-dr o-dre -drea dream 
ream- 


其 中 ， 下 划 线 “_ ”代表 单词 与 单词 之 间 的 间隔 。 尽 管 这 个 技术 用 于 我 们 的 实验 中 ， 对 英文 
文档 集 上 的 检索 方法 有 略微 的 负面 影响 ， 但 对 于 其 他 方法 和 语言 却 是 有 利 的 。 


3.4 欧洲 语言 


本 节 中 对 分 词 的 讨论 将 从 英文 延伸 到 其 他 欧洲 语言 。 我 们 将 隶属 于 几 个 不 同 语系 的 广泛 
的 语言 都 归 到 这 一 类 。 例 如 ， 法 语 和 意大利 语 属于 罗曼 语 : 荷兰 语 和 瑞典 语 属 于 日 耳 曼 语 ; 
俄语 和 波兰 语 属于 斯 拉夫 语 。 罗 曼 语 、 日 耳 曼 语 、 斯 拉夫 语 彼 此 之 间 相 互联 系 ， 但 芬兰 语 和 
匈牙利 语 属于 这 三 个 之 外 的 第 四 大 语系 ， 与 前 面 的 语系 毫 不 相关 。 爱 尔 兰 语 和 苏格兰 盖 尔 语 
属于 第 五 大 语系 。 巴 斯 克 语 ， 在 西班牙 和 法 国有 超过 100 万 的 人 使 用 ， 是 一 种 独立 Cso- 
late) 的 语言 ， 与 其 他 使 用 中 的 语言 都 不 相关 。 

尽管 “欧洲 语言 ”这 个 类 别 从 语言 学 角度 来 说 没什么 意义 ， 但 从 信息 检索 的 角度 来 看 ， 
将 这 些 语言 视 为 一 组 。 由 于 欧洲 大 陆 共同 的 历史 ， 这 些 语言 在 正字 法 (orthography), ， 即 书 
写 规则 上 ， 有 类 似 的 规定 。 它 们 都 使 用 一 个 包含 大 小 写 形式 的 几 十 个 字母 组 成 的 字母 表 。 用 
标点 提供 句子 的 结构 。 字 母 序 列 通常 由 空格 和 标点 分 隔 成 词 。 

欧洲 语言 中 普遍 存在 的 大 量 分 词 问题 在 英文 中 是 没有 的 。 英 文中 几乎 不 存在 重音 符 和 其 
他 发 音符 ， 除 “naive” 是 一 个 很 少见 的 例子 外 。 在 许多 其 他 欧洲 语言 中 ， 发 音符 对 发 音 来 
说 是 非常 重要 的 ， 也 因此 可 区 分 不 同 的 单词 。 在 西班牙 语 中 , “cuna” 是 播 篮 的 意思 ， 但 是 
“cuiia” 是 棉 形 物 的 意思 。 在 葡萄 牙 语 中 ,，“n6” 是 扣子 的 意思 , 但 “no” 是 一 个 虚词 ， 表 示 
“在 ”的 意思 。 尽 管 经 过 仔细 地 编辑 ， 发 音符 都 能 被 正确 标识 ， 但 在 查询 和 其 他 更 加 随意 的 
书写 中 ， 这 些 符 号 常常 不 存在 ， 因 此 会 导致 无 法 匹配 。 

一 个 解决 方案 是 在 分 词 过 程 中 将 这 些 发 音符 号 都 去 掉 ， 将 “cuna” 和 “cufia” 视 为 同一 
个 词 项 。 另 一 个 解决 方案 是 双 路 索引 这 样 的 词 项 ， 则 时 保留 有 发 音符 和 没有 发 音符 的 形式 。 
在 查询 阶段 ， 由 信息 检索 系统 来 决定 发 音符 是 否 重 要 。 特 殊 的 查询 方法 也 同时 考虑 这 两 种 形 
式 ， 使 得 可 以 匹配 任何 一 种 方式 。 最 好 的 解决 方案 取决 于 特定 语言 的 细节 和 信息 检索 环境 。 

对 于 某 个 语言 或 语系 ， 还 会 有 其 他 的 分 词 问 题 。 很 多 日 耳 曼 语言 会 把 组 合 名 词 写成 一 个 
单词 。 如 荷兰 语 中 , “bicycle wheel” 等 于 “fietswiel”。 在 分 词 过 程 中 ， 这 个 组 合 名 词 就 被 
间断 (broken) 或 分 割 (segmented) 为 两 个 词 项 ， 使 查询 词 项 “fiets” 能 够 得 到 匹配 。 同 
样 ， 德 语 单词 “Versicherungsbetrug” 是 “Versicherung” CARR”) A “Betrug” (“BRIE”) 
的 组 合 。 注 意 ， 在 这 种 情况 下 ， 不 能 简单 地 将 单词 划分 为 两 个 部 分 ， 还 要 仔细 处 理 连接 两 个 
部 分 的 “s” 字 符 。 当 信息 检索 系统 包含 混合 语言 文档 时 还 会 有 其 他 的 问题 。 只 有 重音 符号 
AERA Pay “the” CR 和 英语 中 的 定 冠 词 “the”。 

大 多 数 欧 洲 语 言 可 以 使 用 词 干 提取 器 。 特 别 注意 Snowball 词 干 提 取 器 ， 它 能 够 支持 包 
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括 土耳其 语 在 内 的 十 多 种 欧洲 语言 8 。Snowball 由 Martin Porter 创建 ， 他 也 是 英文 词 干 提 
取 器 Porter 的 开发 者 ， 这 两 个 提取 方法 差不多 。?%-gram 字符 分 词 方法 对 于 欧洲 语言 也 有 很 
好 的 效果 ，% 一 4 或 5 为 最 佳 值 。 

表 3-3 比较 了 8 种 欧洲 语言 上 的 分 词 技术 ， 使 用 的 是 类 似 于 TREC 风格 的 测试 集 。 对 于 
所 有 的 语言 来 说 ，Snowball 词 干 提取 器 都 比 未 提取 词 干 好 。 对 于 荷兰 语 、 芬 兰 语 、 德 语 以 
及 瑞典 语 ， 字 符 5-gram 方法 的 效果 是 最 好 的 。 


表 3-3 在 几 个 欧洲 语言 (基于 McNamee, 2008) 上 比较 分 词 技 术 。 表 中 列 出 了 四 种 分 
词 方法 的 平均 查 准 率 均 值 ， 分 别 是 未 提取 词 千 的 单词 、Snowball 词 于 提取 器 、 
字符 4-gram、 字 符 5-gram 

语言 单词 WTR 4-gram 5-gram 

荷兰 语 0. 416 0, 427 0. 438 0. 444 
英语 0. 483 0. 501 0. 441 0. 461 
芬兰 语 0. 319 0. 417 0. 483 0. 496 
法 语 0. 427 0. 456 0. 444 0. 440 
德语 0. 349 0. 384 0. 428 0. 432 
意大利 语 0. 395 0. 435 0. 393 0. 422 
西班牙 语 0. 427 0. 467 0. 447 0. 438 
瑞典 语 0. 339 0. 376 0. 424 0. 427 
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中 文 、 日文、 韩文 统称 为 CJK 语言 。 如 欧洲 语言 那样 ， 尽 管 不 属于 同一 语系 ， 但 共同 
的 历史 使 这 些 语言 的 书写 形式 都 遵循 相同 的 正字 法 。 与 欧洲 语言 相 比 ， 它 们 的 字符 集 相当 庞 
大 。 一 张 典 型 的 中 文 报纸 就 包含 了 几 千 个 不 同 的 汉字 。 并 且 ， 中 文 和 日 文 单词 之 间 是 没有 空 
格 的 。 因 此 ， 这 些 语言 中 如 何 划 分 内 容 就 成 了 分 词 中 最 重要 的 部 分 。 

字符 集 的 复杂 性 带 来 了 很 多 问题 。 日 文 使 用 三 种 主要 的 书写 方式 。 其 中 两 种 方式 里 ， 每 
个 字符 都 代表 了 口语 里 的 一 个 音节 。 第 三 种 方式 源 于 中 文 汉字 ， 并 且 具 有 相同 的 Unicode 码 
点 。 原 则 上 ， 每 个 词 都 可 以 用 这 三 种 方式 中 的 任何 一 种 进行 书写 。 用 一 种 方式 书写 的 查询 词 
项 应 该 要 能 匹配 用 其 他 方式 书写 的 文档 词 项 。 

许多 中 文 汉字 有 繁体 和 简体 两 种 形式 。 由 于 历史 原因 ， 华 语 世 界 的 不 同 地 区 由 不 同形 式 
占 主 导 地 位 。 例 如 ， 在 中 国 香港 繁体 字 很 普遍 ， 而 在 中 国 的 大 部 分 地 区 简体 字 才 是 标准 。 因 
此 ， 为 一 种 形式 的 查询 返回 另 一 种 形式 的 文档 也 是 对 的 。 很 多 人 能 同时 阅读 两 种 形式 的 文 
本 。 一 些 软件 工具 如 浏览 器 插件 也 能 自动 将 一 种 形式 转换 为 男 一 种 形式 。 

中 文 的 每 个 字 都 有 具体 的 意义 ， 这 是 很 不 常见 的 ， 但 是 这 个 性 质 并 不 意味 着 可 将 每 个 汉 
字 都 神 为 -个 单词 。 而 且 ， 一 个 词 的 意思 与 词 中 单个 汉字 的 意思 也 许 根本 不 一 样 ; 一 个 词 不 
等 同 于 其 各 部 分 之 和 。 例 如 ， 中 文 词 “危机 ”由 “ 危 ” 和 “机 ”组 成 〈Gore，2006)。 然 而 ， 
第 二 个 汉字 在 这 里 意思 更 接近 “关键 点 "， 而 在 其 他 上 下 文中 通常 是 指 机 器 。 同 一 个 字 〈 机 ) 
也 是 “机 场 ”的 第 一 个 字 ， 它 的 第 二 个 字 是 “ 场 ”。 将 词 的 各 部 分 正确 地 连接 对 保持 它 的 本 意 
非常 重要 。“ 机 场 ” 不 是 按 字 面 意思 指 “ 机 器 的 场所 ”。“ 自 由 ”也 不 是 指 “ 自 己 的 原由 ”。 

尽管 有 些 中 文 词 ， 包 括 许多 虚词 ， 只 有 一 个 汉字 ， 但 大 多 数 词 会 更 长 。 大 部 分 的 词 都 是 
二 元 的 : 包括 两 个 汉字 。 将 一 个 汉字 序列 划分 为 词 是 一 个 困难 的 过 程 。 就 像 以 下 没有 空格 的 
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英文 句子 “Wegotogethertogether, ”一 样 。 正 确 的 划分 (“We go to get her together.”) 需 
要 对 英文 文法 和 词汇 表 有 所 认识 。 中 文 里 一 个 汉字 可 以 同时 和 它 前 面 或 后 面 的 汉字 组 成 词 。 
正确 的 划分 依赖 于 上 下 文 。 然 而 ,分词 对 于 中 文 信息 检索 而 言 不 是 绝对 重要 的 。 或 许 是 因为 
中 文中 大 都 是 二 元 词 ，2-gram 字符 索引 在 中 文中 效果 很 好 ， 并 为 评价 自动 单词 划分 提供 了 
简单 的 基准 。 

所 有 的 CJK 语言 都 为 它们 的 音译 提供 了 标准 转化 方式 ， 可 以 与 罗马 字母 表 对 接 。 对 中 
文 来 讲 ， 现 代 音 译 标 准 是 汉语 拼音 (或 拼音 )。 在 拼音 中 ,危机 写 为 “weiji”， 机 场 写 为 
“jiching”。 重 音符 号 代表 了 音调 (tonality)， 是 指 音节 发 音 语 调 的 改变 。 

拼音 为 表达 中 文 查询 提供 了 另 一 种 简便 方式 。 和 遗憾 的 是 ， 拼 音 的 使 用 会 导致 一 定 程度 的 
起义 。 例 如 ，6 个 常见 汉字 都 发 音 为 “入 。 不 仅 如 此 ， 拼 音 查询 通常 还 不 输入 音调 ， 这 就 导 
致 了 更 多 的 歧义 。 如 果 去 掉 音 调 ， 大 概 有 30 个 常见 汉字 都 发 音 为 “yi”， 更 多 汉字 的 发 音 为 
“shi”。 查 询 词 项 “shishi” 可 以 表示 “时 事 ”、“ 实 施 ” 和 好 几 个 其 他 的 意思 。 为 了 处 理 这 种 
歧义 ， 搜 索引 擎 把 不 同 的 解释 展现 给 用 户 ， 让 用 户 来 选择 正确 的 那个 。 


3.6 ”延伸 阅读 


简单 说 来 ， 分 词 就 是 试图 将 文档 划分 为 词 。Trask (2004) 从 语言 学 的 角度 讨论 了 
“ 词 ” 的 概念 。 此 外 ， 从 语言 学 角度 对 分 词 和 词 形 归并 的 讨论 在 第 4 章 中 由 Manning 和 
Schiitze (1999) 给 出 。 

大 部 分 编程 语言 和 操作 系统 都 提供 对 Unicode 和 UTF-8 的 支持 。Unicode 标准 的 细节 
由 其 官网 给 出 9 X Unicode 码 点 用 UTF-8 编码 来 实现 ， 是 由 Rob Pike 和 Ken Thompson 
开发 的 ， 作 为 他 们 的 Plan-9 操作 系统 (Plan-9 Operating System) 的 一 部 分 (Pike 和 
Thompson，1993)。 在 Pike 和 Thompson 开发 出 UTF-8 之 后 ， 为 了 兼容 Unicode 的 变化 及 
PRE, UTF-8 也 一 直 被 不 断 修 改 。 它 在 RFC 3639 中 被 定义 为 互联 网 标准 。 

除 Porter 词 干 提取 器 外 (Porter，1980)， 早 期 的 英文 词 干 提取 器 包括 了 Lovins 
(1980), Frakes (1984) 和 Paice (1990) 的 工作 。Harman (1991) 给 出 了 一 个 简单 的 S ial 
干 提取 器 (S stemmer) ， 用 于 将 复数 形式 的 单词 转 为 单数 形式 。 她 将 这 个 S 词 干 提 取 器 与 
Porter 和 Lovins 词 于 提取 器 进行 了 性 能 比较 ， 但 是 发 现 它 们 与 不 提取 词 干 相 比 ， 并 没有 在 
检索 性 能 上 有 显著 提高 。 通 过 使 用 更 大 的 测试 集 来 进行 更 全 面 的 实验 ，Hull (1996) 证 明了 
词 干 提取 器 能 显著 提高 检索 的 平均 有 效 性 。 然 而 ， 他 警告 说 ， 过 度 的 词 干 提取 在 显著 提高 平 
均 有 效 性 并 大 大 提高 少数 查询 的 性 能 的 同时 ， 会 降低 其 他 多 数 查 询 的 性 能 。 

Snowballe 词 干 提取 器 为 创建 词 干 提取 器 提供 了 一 个 算法 框架 。 即 便 如 此 ， 为 一 种 新 语 
言 开发 和 验证 一 个 词 干 提取 器 是 一 个 很 耗费 人 力 的 过 程 。 因 此 ， 已 有 尝试 通过 使 用 大 量 语 料 
库 来 提高 语言 样本 ， 从 而 希望 可 以 自动 地 创建 词 干 提取 器 。Creutz 和 Lagus (2002) 介绍 了 
一 种 通过 最 小 化 代价 函数 来 进行 单词 划分 的 方法 ， 并 将 他 们 的 方法 与 已 有 的 英文 和 芬兰 语词 
干 提 取 器 进行 了 对 比 。Majumder 等 人 (2007) 基于 词 形 分 析 提 出 了 一 个 将 单词 聚集 到 等 价 

类 的 方法 。 他 们 在 几 种 语言 上 评价 了 这 个 方法 ， 包 括 孟 加 拉 语 。 
McNamee 和 Mayfield (2004〉 概 述 了 用 于 信息 检索 的 n-gram 分 词 方法 。McNamee 等 
人 (2008) 和 McNamee ( 2008 ) 将 n-gram 索引 方法 与 Snowball 词 干 提取 器 和 Creutz 和 
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Lagus (2002) 的 方法 进行 比较 。 此 外 ， 字 符 n-gram 也 可 以 用 于 处 理由 光学 字符 识别 (Optical 
Character Recognition, OCR) 导致 的 错误 。Beitzel SA (2002) 概述 了 这 一 领域 的 发 展 情况 。 

从 1994~1996 年 ， 西 班 牙 语 的 信息 检索 系统 是 TREC 中 一 个 实验 任务 的 主题 。1996 一 
1997 年 ， 中 文 信息 检索 系统 是 一 个 任务 的 主题 《Voorhees 和 Harman，2005) 。 包 括 阿拉 伯 
语 和 其 他 语言 在 内 的 多 语言 任务 则 从 1997 年 一 直 持 续 到 2002 年 (Gey 和 Oard，2001)。 从 
2000 年 开始 ， 跨 语言 评价 讨论 组 (CLEFS) 在 欧洲 语言 上 进行 了 很 多 多 语言 和 蜂 语 言 的 实 
验 。 表 3-3 的 结果 就 是 基于 CLEF 测试 集 得 出 的 。 从 2001 年 起 ， 日 本 国立 信息 学 研究 所 信 
息 检 索 系 统 测 试 集 项 目 (NTCIRe ) 就 提供 了 一 个 类 似 的 亚洲 语言 上 的 实验 讨论 组 。 印 度 信 
息 检 索 评价 讨论 组 《FIRFS)〉 在 印度 次 大 陆 语言 也 进行 了 实验 。 

用 计算 机 处 理 亚洲 语言 存在 困难 和 复杂 的 问题 ， 至 今 仍 是 许多 研究 的 主题 。 一 个 非常 重 
要 的 期 刊 ,，《ACM Transactions on Asian Language Information Processing) (ACM 亚洲 语 
言 信 息 处 理学 报 ) ， 完 全 致力 于 该 主题 。Luk M Kwok (2002) 全 面 介绍 了 中 文 信息 检索 中 
的 单词 划分 和 标记 化 技术 。Peng 等 人 《〈2002) 探索 了 中 文 信息 检索 中 分 词 的 重要 性 ， 评 价 和 
对 比 了 多 个 有 竞争 力 的 技术 。Braschler 和 Ripplinger (2004) 研究 了 对 德语 的 分 词 〈 也 叫做 分 
解 (decompounding)), Kraaij 和 Pohlmann (1996) 研究 了 对 荷兰 语 的 分 解 。《Information Re- 
trieval Journal》( 信 息 检 索 期 刊 ) 的 一 个 特刊 关注 非 英 文 网 站 检索 (Lazarinis A, 2009). 

对 一 种 新 语言 分 词 需要 仔细 考虑 它 的 正字 法 和 词 形 。Fujii 和 Croft (1993) 讲述 了 日 文 
分 词 的 基本 知识 。Asian 等 人 〈2005) 讨论 了 印度 尼 西 亚 语 的 分 词 。Larkey $A (2002) if 
论 了 阿拉 伯 语 的 分 词 。Nwesri A (2005) 介绍 并 评价 了 一 种 移 除 阿拉 伯 语 中 表示 连词 和 
介词 词缀 的 算法 。 

拼写 的 正确 性 与 分 词 紧密 联系 。 因 为 词 条 把 查询 和 文档 联系 起 来 ， 错 误 的 拼写 会 使 匹配 
变 得 更 困难 。Kukich (1992) 概述 了 识别 和 纠正 拼写 错误 的 基础 工作 。Brill 和 Moore 
(2000) 为 拼写 纠正 提供 了 一 个 错误 模型 。Ruch (2002) 在 一 个 基础 的 特定 任务 中 评测 了 拼 
写 错误 对 查询 的 影响 。Cucerzan 和 Brill (2004) 以 及 Li 等 人 (2006) 从 一 个 商业 Web 搜索 
引擎 查询 日 志 里 确定 拼写 错误 及 对 应 的 纠正 ， 从 而 创建 了 拼写 检查 器 。Jain 等 人 (2007) Fr 
绍 了 用 查询 日 志 来 扩展 缩 略 语 的 方法 。 


37 练习 
练习 3. 1 在 至 少 两 个 商业 搜索 引擎 中 输入 下 面 的 查询 ， 


(a) to be or riot to be 

(b) U.S. 

(e) US 

(d) THE 

Ce) The The 

(f) TIL be back 

(g) R-E-S-P-E-C-T 

每 一 个 查询 都 有 特定 的 含义 ， 分 词 之 后 这 些 含义 都 可 能 会 丢失 。 判 断 返 回 的 前 5 条 结果 ， 看 看 哪些 是 
相关 的 ? 





© www.clef-campaign. org 
© research, nii. ac. jp/ntcir 


© www. isical, ac. in/~clia 


第 3 章 ” 词 条 与 词 项 . 69 


练习 3.2 在 Web 上 ， 某 些 词 项 出 现 得 过 于 频繁 以 至 于 被 视 为 是 停 用 词 。 在 至 少 两 个 商业 搜索 引擎 上 
输入 如 下 查询 : 

(a) www 

(b) com 

(c) http 

判断 返回 的 前 5 条 结果 ， 看 看 哪些 是 相关 的 ? 

练习 3. 3 Unicode 赋予 字符 8 的 码 点 为 U 十 03B2， 则 相对 应 的 二 进 制 UTF-8 的 表示 形式 是 什么 ? 

练习 3. 4 (项 目 练习 ) 对 你 在 练习 1. 9 中 创建 的 文档 集 进行 分 词 。 在 这 个 练习 中 ， 只 保留 那些 由 英文 
字母 表 中 的 字符 构成 的 词 条 。 忽 略 标签 和 由 非 ASCH 字符 构成 的 词 条 。 根 据 3. 3 节 介 绍 的 方法 ， 从 这 些 词 
条 中 生成 5-gram。 绘 制 一 个 关于 词 频 和 排名 数 的 对 数 图 ， 与 图 1-5 或 者 是 练习 1. 12 生成 的 图 类 似 。5-gram 
遵循 齐 夫 定律 〈Zipf's law) 吗 ? WRM, a 的 近似 值 为 多 少 ? 

练习 3.5 (MAHI) 用 维基 百科 的 中 文 文档 来 重复 练习 3.4， 使 用 字符 2-gram 来 分 词 。 

练习 3.6 (项 目 练习 ) 获取 一 份 Porter 的 英文 词 干 提取 器 或 者 其 他 英文 词 干 提取 器 。 对 练习 1.9 中 创 
建 的 文档 集 进行 分 词 。 和 练习 3. 4 一样， 只 保留 那些 由 英文 字母 表 中 的 字符 构成 的 词 条 。 删 除 重 复 的 词 条 ， 
为 这 个 文档 集 构建 一 个 词汇 表 。 对 这 个 词汇 表 中 的 词 项 运行 词 干 提取 器 ,创建 等 价 词 项 集 ， 每 个 集合 中 所 
有 词 项 被 提取 到 同一 词根 形式 。 哪 一 个 〈 娜 一 些 ) 集合 最 大 ? 找 出 至 少 三 个 包含 了 被 词 干 提取 器 提取 出 不 
恰当 词根 的 词 项 。 

练习 3.7 (项 目 练习 ) “如果 你 熟悉 除 英文 外 的 一 门 语言 并 存在 对 应 的 词 干 提取 器 ， 在 这 个 语言 上 重复 
练习 3. 6。 称 可 以 用 维基 百科 作为 文本 源 。 
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Information Retrieval: Implementing and Evaluating Search Engines 


静态 倒 排 索引 


本 章 将 介绍 一 些 可 用 于 实现 第 2 章 中 提 到 的 检索 查询 的 索引 结构 。 我 们 将 讨论 的 范围 暂 
时 限定 在 静态 文档 集 ， 即 假设 我 们 在 为 一 个 不 变 的 文档 集 建立 索引 。 而 动态 文档 集 ， 即 可 以 
加 入 或 删除 文档 的 文档 集 ， 它 的 索引 更 新 策略 将 是 第 7 章 讨 论 的 主题 。 

为 了 提高 性 能 ， 我 们 希望 能 把 整个 文档 集 的 索引 都 保存 在 内 存 中 。 然 而 ， 在 很 多 应 用 中 
这 是 不 可 行 的 。 例 如 在 文件 系统 检索 中 ， 存 储 在 文件 系统 中 的 全 部 数据 的 一 个 全 文 索引 很 容 
易 就 到 达 几 千 兆 字 节 。 由 于 用 户 并 不 希望 把 大 部 分 的 可 用 内 存 资 源 都 贡献 给 检索 系统 ， 因 此 
把 整个 索引 保存 在 内 存 (RAM) 中 是 不 太 可 行 的 。 即 便 对 于 Web 搜索 引擎 中 专用 的 索引 服 
务 器 来 说 ， 更 经 济 的 做 法 也 是 将 大 部 分 索引 存储 在 磁盘 而 非 内 存 中 ， 因 为 磁盘 空间 比 内 存 便 
宜 得 多 。 例 如 ， 我 们 写 这 本 书 时 ，1 GB 的 内 存 空间 大 概 需要 40 美元 ， 而 1 GB 的 磁盘 空间 
只 需 大 约 0. 2 美元 。 它 们 之 间 存 在 了 200 倍 的 价格 差 ， 但 是 ， 这 无 法 反映 这 两 种 存储 介质 的 
相对 性 能 。 对 于 和 典型 的 索引 操作 ， 内 存 索 引 通常 比 磁 盘 索引 快 10 一 20 倍 。 因 此 ， 当 建立 两 
个 价格 相同 的 检索 系统 时 ， 一 个 把 索引 数据 存储 在 磁盘 上 ， 另 外 一 个 把 索引 数据 存储 在 内 存 
中 ， 基 于 磁盘 索引 的 系统 可 能 要 比 基 于 内 存 索 引 的 系统 快 〈( 该 问题 及 相关 问题 更 深入 的 讨论 
参见 Bender 等 人 (2007) 的 工作 )。 

因为 搜索 引擎 要 与 运行 在 同一 系统 内 的 其 他 进程 共享 内 存 ， 或 因为 将 数据 存储 在 磁盘 上 
比 存放 在 内 存 中 更 经 济 ， 所 以 我 们 在 本 章 中 都 基于 一 个 假设 ， 就 是 内 存 是 稀缺 资源 。 在 讨论 
倒 排 索引 这 一 数据 结构 时 ， 将 重点 讨论 混合 组 织 结构 ， 即 把 小 部 分 的 索引 存放 在 内 存 中 ， 同 时 
把 大 部 分 的 索引 数据 存放 在 磁盘 上 。 我 们 将 研究 对 搜索 引擎 的 不 同 部 分 使 用 不 同 的 数据 结构 ， 
并 通过 大 量 的 实验 去 评价 它们 的 性 能 。 附 录 中 给 出 了 做 这 些 实验 的 计算 机 系统 的 性 能 概要 。 


4.1 索引 的 组 成 部 分 和 索引 的 生命 周期 


本 章 在 讨论 倒 排 索引 的 各 个 组 成 部 分 时 ， 将 从 两 个 方面 去 探讨 : 结构 方面 ， 将 系统 分 解 
成 各 个 部 分 ， 并 分 别 研究 索引 在 每 个 单独 部 分 的 各 方面 内 容 〈 如 单独 的 位 置信 息 列 表 ); 操 
作 方 面 ， 将 研究 倒 排 索 引 生 命 周 期 中 的 各 个 阶段 ， 同 时 讨论 各 个 阶段 中 必须 实现 的 关键 索引 
操作 〈 如 执行 检索 查询 操作 ) 。 

正如 第 2 章 提 到 的 ， 倒 排 索引 的 两 个 主要 组 成 部 分 是 词典 〈dictionary) 和 位 置信 息 列 
表 (posting list) 。 对 于 文档 集中 的 每 个 词 项 ， 都 有 一 个 位 置信 息 列 表 记 录 该 词 项 在 文档 集 
中 出 现 的 位 置 。 系 统 将 根据 这 个 位 置信 息 列 表 中 的 信息 处 理 检索 查询 。 词 典 是 建立 在 位 置信 
息 列 表 上 用 于 索引 的 数据 结构 。 对 于 当前 查询 中 的 每 个 词 项 ， 搜 索引 擎 在 开始 处 理 查询 之 
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前 ， 首 先 需 要 找到 每 个 词 项 对 应 的 位 置信 息 列 表 。 词 典 就 提供 了 查询 词 项 到 索引 中 的 对 应 位 
置信 息 列 表 的 映射 。 

除了 词典 和 位 置信 息 列 表 ， 搜 索引 人 擎 通常 还 用 到 其 他 的 数据 结构 。 例 如 ， 很 多 的 搜索 引 
擎 会 为 索引 中 的 每 个 文档 都 维护 一 个 文档 结构 图 (document map) ， 存 储 与 该 文档 相关 的 特 
定 信息 ， 如 文档 的 URL、 文 档 长 度 、PageRank 值 〈 参 见 15. 3. 1 节 ) 等 。 这 些 数据 结构 的 
实现 都 非常 简单 ， 不 需要 特别 关注 。 

静态 文档 集 的 静态 倒 排 索 引 的 生命 周期 可 以 分 为 以 下 两 个 不 同 的 阶段 〈 动 态 索 引 的 两 个 
阶段 也 类 似 ) : 

D 索引 建立 (index construction) :顺序 处 理 文 档 集 ， 每 次 读 人 一 个 词 条 ， 同 时 以 增 量 
方式 为 文档 集中 的 每 个 词 项 建立 一 个 位 置信 息 列表 。 

2) 查询 处 理 (query processing): 利用 第 一 阶段 建立 的 索引 信息 实现 查询 处 理 。 

第 一 阶段 一 般 称 为 索引 阶段 (indexing time)， 第 二 阶段 则 称 为 查询 阶段 (query time), Æ 
很 多 时 候 ， 这 两 个 阶段 是 互 为 补充 的 ; 通过 在 索引 阶段 增加 一 些 额 外 的 处 理 〈 如 预计 算 文档 
贡献 得 分 参见 5. 1. 3 节 )， 查 询 阶 段 就 能 减少 相应 的 处 理工 作 。 然 而 ， 一般 来 说 ， 这 两 
个 阶段 间 又 存在 着 较 大 的 差异 ， 通 常 使 用 不 同 的 算法 和 数据 结构 。 即 使 是 它们 中 共有 的 索引 
的 子 部 分 ， 如 搜索 引擎 的 词典 数据 结构 ， 其 实现 方法 在 两 个 阶段 中 也 不 尽 相 同 。 

本 章 的 主要 内 容 就 是 以 上 提 到 的 建立 倒 排 索引 过 程 的 两 个 主要 方面 。 本 章 的 第 一 部 分 
(4.2~4.4 79) 主要 关注 查询 阶段 的 词典 和 位 置信 息 列表 ， 寻 找 能 实现 高 效 索 引 访问 和 查询 
处 理 的 数据 结构 。 第 二 部 分 (4. 5 节 ) 将 重点 关注 索引 建立 过 程 并 讨论 如 何 有 效 实现 第 一 部 
分 中 提出 的 数据 结构 。 同 时 还 讨论 如 何 使 用 与 第 一 部 分 不 一 样 的 组 织 方式 构建 词典 和 位 置信 
息 列 表 ， 以 使 索引 阶段 的 性 能 达到 最 佳 。 

为 简单 起 见 ， 假 设 本 章 仅 使 用 模式 独立 〈schema-independent) 索引 。 其 他 类 型 的 倒 排 
索引 均 与 模式 独立 索引 类 似 ， 本 章 介绍 的 方法 均 能 应 用 于 其 上 “〈 人 参见 2. 1. 3 节 中 列 出 的 各 种 
不 同类 型 的 倒 排 索引 ) 。 


4.2 词典 


词典 是 用 于 管理 文档 集中 词 项 集 的 核心 数据 结构 ， 它 提供 了 一 个 从 索引 词 项 到 其 对 应 位 
置信 息 列表 地 址 的 映射 。 在 查询 阶段 ， 当 处 理 当前 关键 词 查 询 的 时 候 ， 定 位 查询 词 项 在 索引 
中 的 位 置信 息 列表 是 其 中 一 个 首要 步骤 。 在 索引 阶段 ， 词 典 的 查找 功能 使 搜索 引擎 很 快 就 能 
获得 每 个 当前 词 项 的 倒 排列 表 在 内 存 中 的 地 址 ， 并 在 该 列表 后 添加 一 个 新 的 位 置信 息 。 

搜索 引擎 中 的 词典 通常 支持 以 下 操作 

D 播 和 人 一 个 词 项 T 的 新 记录 。 

2) 查找 并 返回 词 项 T 的 记录 CORE. 

D 查找 并 返回 所 有 前 缀 是 了 的 词 项 的 记录 。 

当 为 文档 集 建立 索引 时 ， 搜 索引 擎 执行 第 1 和 第 2 种 操作 在 词典 中 查找 当前 词 项 ， 并 在 索引 
中 添加 这 些 词 项 的 位 置 。 索 引 建 立 之 后 ， 搜 索引 擎 执行 第 2 和 第 3 种 操作 为 所 有 的 查询 词 项 
寻找 位 置信 息 列表 ， 从 而 实现 检索 查询 的 处 理 。 尽 管 第 3 种 词典 操作 并 不 是 必须 的 ， 但 是 该 
操作 非常 有 用 ， 因 为 能 让 搜索 引擎 支持 形式 为 “inform x ”的 前 缀 查询 (prefix query), FF 
匹配 出 所 有 包含 前 缀 为 “inform” 的 词 项 的 文档 。 

对 于 一 个 典型 的 自然 语言 文档 集 ， 词 典 相对 于 整个 索引 所 占 的 空间 要 小 得 多 。 表 人 1 中 
给 出 了 本 书 中 使 用 的 3 个 样 例文 档 集 上 的 数据 就 很 好 地 说 明了 这 一 点 。 对 于 相同 的 文档 集 ， 
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未 经 压缩 的 词典 所 占 的 空间 仅 是 未 经 压缩 的 模式 独立 索引 所 占 空间 的 0.6% (GOV2) 至 
7% (莎士比亚 文集 ) 〈 事 实 上 ， 根 据 齐 夫 定 律 〈Zipf's law) ， 文 档 集 越 大 ， 词 典 相对 于 索引 
所 占 的 空间 越 小 一 一 参见 公式 (1-2))。 我 们 因此 目前 可 以 假设 ， 词典 所 占 空间 足够 小 ， 可 
以 完全 把 其 存储 在 内 存 中 。 

表 4-1 3 个 样 例文 档 集 上 不 同 索 引 类 型 压缩 前 与 压缩 后 的 大 小 。 每 一 种 情况 里 ， 第 一 个 数值 


表示 每 个 索引 项 都 采用 32 位 整数 形式 存储 时 的 大 小 ， 第 二 个 数值 表示 每 个 索引 项 都 
采用 了 字 节 对 齐 的 压缩 编码 方法 压缩 后 的 大 小 











莎士比亚 文集 TREC45 GOV2 
词 条 数 1.3X108 3.0X 108 4. 4X101! 
词 项 数 2. 3X104 1.2X106 4.9X107 
词典 (未 压缩 》 0.4 MB 24 MB 1046 MB 
文档 编号 索引 = n/a 578 MB/200 MB 37751 MB/12412 MB 
词 频 索 引 n/a 1110 MB/333 MB 73593 MB/21406 MB 
位 置 索引 n/a 2255 MB/739 MB 245538 MB/78819 MB 
模式 独立 索引 5.7 MB/2.7 MB 1190 MB/532 MB 173854 MB/63670 MB 


实现 常 驻 内 存 词典 的 两 种 最 常见 的 方法 是 : 
。 基于 排序 的 词典 (sort-based dictionary) ， 文 档 集 中 所 有 的 词 项 都 以 字母 序 〈 即 按 字 
母 顺 序 ) 存放 在 一 个 有 序数 组 或 一 棵 搜索 树 中 ， 如 图 4-1 所 示 。 查 找 操作 通过 遍历 
Ric ee ee We ( 当 使 用 有 序 表 时 〉 实现 。 
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图 4-1 基于 有 序数 组 的 词典 数据 结构 (数据 来 源 于 工 TREC45 的 模式 独立 索引 )。 数组 包含 定 长 词典 
记录 ， 由 一 个 以 0 作为 结束 符 的 字符 串 和 一 个 指向 该 词 项 位 置信 息 列表 地 址 的 指针 组 成 


。 基于 哈 希 的 词典 (hash-based dictionary) ， 所 有 索引 词 项 在 哈 希 表 中 都 有 一 个 对 应 的 
记录 。 哈 希 表 中 的 冲突 〈 即 两 个 词 项 有 相同 的 哈 希 值 ) 可 以 通过 链表 (chaining) 方 
个 链表 中 ， 如 图 4-2 Bra. 





1. 存储 词典 的 记录 

当 用 有 序数 组 实现 词典 时 ， 必 须 保证 每 个 数组 记录 的 大 小 都 一 致 ， 否 则 难以 实现 二 分 查 
找 。 然 而 ， 这 样 会 导致 一 些 问题 ， 例 如 ，GOV2 中 的 最 长 字符 串 〈 即 该 文档 集中 的 最 长 词 
项 ) 有 74 147 字 节 。 很 明显 ， 给 词典 中 的 每 个 词 项 都 分 配 74 KB 的 内 存 空 间 是 不 可 行 的 。 
但 是 即使 我 们 不 考虑 这 种 极端 情况 ， 每 个 词 项 只 分 配 20 字 节 ， 仍 然 浪费 了 很 多 宝贵 的 内 存 
资源 。 采 用 1. 3. 2 节 中 的 简单 的 分 词 过 程 ， 可 以 得 到 GOV2 的 平均 词 项 长 度 是 9. 2 字 节 。 
.如果 使 用 20 字 节 的 定 长 内 存 空间 来 存放 每 个 词 项 ， 平 均 每 个 词 项 就 浪费 了 10. 8 字 节 的 空间 
(内 部 碎片 (internal fragmentation) ) 。 
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图 4-2 基于 哈 希 表 〈22 = 1024 个 记录 ) 的 词典 数据 结构 〈 数 据 来 源 于 TREC45 的 模式 独立 索 
引 )。 有 相同 哈 希 值 的 词 项 都 存放 到 同一 链表 中 。 每 个 词 项 信息 描述 块 包含 该 词 项 本 岗 、 
它 的 位 置信 息 列 表 地 址 和 一 个 指向 链表 中 下 一 个 记录 的 指针 
























一 种 消除 内 部 碎片 的 方法 是 不 要 在 数组 内 存放 索引 词 项 本 身 ， 而 是 存放 指向 它们 的 指 
针 。 例 如 ， 搜 索引 擎 可 以 维护 一 个 主 〈primary) 词典 数组 ， 包 含 指向 辅 (secondary) 数组 
的 32 位 指针 。 辅 数组 中 保存 着 实际 的 词典 记录 ， 包 括 词 项 本 身 和 对 应 的 指向 位 置信 息 列 表 
的 指针 。 图 4-3 展示 了 以 这 种 方式 组 织 的 搜索 引擎 的 词典 数据 。 有 时 把 这 称 为 字符 串 词 典 方 


法 (dictionary-as-a-string approach) ， 因 为 两 个 连续 词典 记录 之 间 并 没有 明确 的 界限 ; 也 可 
将 辅 数组 想象 为 一 个 无 间断 的 长 字符 串 。 
































图 4 3 有 额外 间接 层 的 基于 排序 的 词典 数据 结构 〈 所 谓 的 字符 串 词典 方法 ) 


对 于 GOV2 文档 集 ， 字 符 串 词典 方法 比 图 4-1 所 示 的 词典 每 个 记录 少 6. 8(10. 8 一 4 一 
6. 8) 字 节 的 存储 空间 。 这 里 4 字 节 是 主 数组 的 指针 造成 的 额外 开销 ; 10. 8 字 节 是 内 部 碎片 
所 占 的 空间 。 

需要 指出 的 是 辅 数组 中 存储 的 词 项 串 不 需要 显 式 的 结束 符 〈 如 “\ 0” 字 符 )， 因 为 主 数 
组 中 的 指针 就 隐 式 地 给 出 了 词典 中 每 个 词 项 的 长 度 。 例 如 ， 图 和 3 中 ， 观 察 “shakespeare” 
Al “shakespearean” 的 指针 时 ， 我 们 就 知道 “shakespeare” 在 词典 中 的 记录 需要 16629970 一 
16629951=19 字 节 ，11 字 节 用 于 存储 词 项 ， 另 加 8 字 节 用 于 存储 指向 位 置信 息 列 表 的 64 位 
指针 。 

2. 基于 排序 的 词典 与 基于 哈 希 的 词典 

对 于 大 部 分 的 应 用 ， 基 于 哈 希 的 词典 比 基 于 排序 的 词典 更 快 ， 因 为 它 不 需要 进行 耗 时 的 
二 分 查找 或 树 遍 历来 获得 给 定 词 项 对 应 的 词典 记录 。 基 于 哈 希 的 词典 比 基 于 排序 的 词典 快 多 
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少 取决 于 哈 希 表 的 大 小 。 表 越 小 ， 导 致 的 词 项 冲突 越 多 ， 就 可 能 大 大 降低 词典 的 性 能 。 根 据 
概 测 法 ， 为 了 使 哈 希 表 中 冲突 链表 的 长 度 较 短 ， 哈 希 表 的 大 小 应 随 词典 中 的 词 项 数量 的 增长 
而 线性 增加 。 

表 4-2 给 出 了 在 三 个 样 例 文档 集 上 ， 为 每 个 随机 索引 词 项 查找 词典 记录 的 平均 时 间 。 一 
般 来 说 ， 哈 希 表 越 大 ， 查 询 时 间 越 短 ， 但 莎士比亚 文集 不 是 这 样 ， 因 为 它 太 小 了 〔 仅 有 
23 000 个 不 同 的 词 项 ) ， 导 致 本 来 用 于 减少 词 项 冲突 的 缓冲 效应 反而 降低 了 CPU 缓存 的 利用 
率 。 这 种 情况 下 ， 大 的 哈 希 表 反而 增加 了 查找 时 间 。 尽 管 如 此 ， 只 要 哈 希 表 大 小 合适 ， 基 于 
哈 希 的 词典 通常 至 少 比 基于 排序 的 词典 快 上 两 倍 。 


表 4-2 查询 阶段 的 查找 性 能 ， 即 基于 排序 的 词典 (如 图 4-3 所 示 ) 和 基于 哈 希 的 词典 
(如 图 4-2 所 示 ) 查找 一 个 词 项 的 平均 延 时 。 对 于 后 者 来 说 ， 哈 希 表 的 大 小 ( 数 
组 记录 数 ) 在 28 (~262 000) 到 2" (~1680 F) 之 间 变 化 
排序 哈 希 (218) 了 哈 希 (220 ) 哈 希 (222 7) HÆ) 
莎士比亚 文集 0. 32 ps 0. 11 ps 0. 13 ps 0. 14 ps 0. 16 ps 
TERC45 1. 20 us 0.53 ps 0. 34 us 0. 27 us 0. 25 ps 
GOV2 2.79 ps 19. 8 us 5. 80 ps 2. 23 ps 0. 84 ps 








遗憾 的 是 ， 虽 然 对 单个 词 项 进行 词典 查找 有 速度 上 的 优势 ， 但 基于 哈 希 的 词典 也 有 一 个 
缺点 ， 基于 排序 的 词典 能 有 效 地 支持 前 缀 查询 (如 ，“inform x* ”) 〔 而 基于 哈 希 的 词典 不 
行 )。 假 如 词典 基于 有 序数 组 ， 那 么 前 缀 查询 可 以 通过 两 次 二 分 查找 实现 ,首先 找 出 与 给 定 
前 缀 查询 匹配 的 第 一 个 词 项 T; 和 最 后 一 个 词 项 T,， 然 后 对 Ti BT. 之 间 的 天 一 了 十 1 个 词 
典 记录 进行 线性 扫描 。 过 程 的 时 间 复 杂 度 为 ， 

O(log(|V|)) + O(m) (4-1) 
HEF, m=k—j +1 指 与 前 缀 查询 匹配 的 词 项 数量 ，Y 指 搜索 引擎 的 词汇 表 。 

如 要 使 基于 哈 希 的 词典 支持 前 缀 查询 ， 那 只 能 通过 线性 扫描 哈 希 表 中 的 所 有 词 项 来 实 
现 ， 需 要 6 人 次 字符 串 比 较 。 因 此 搜索 引擎 通常 使 用 两 种 不 同 的 词典 数据 结构 : 在 索引 建 
立 阶段 使 用 基于 哈 希 的 词典 ， 对 操作 1 GHA) 和 操作 2 (单个 词 项 查找 ) 提供 有 效 支 持 ; 
在 索引 建立 后 创建 基于 排序 的 词典 ， 对 操作 2 〈 单 个 词 项 查找 ) 和 操作 3 前 级 查询》 提供 
有 效 支 持 。 

由 于 在 索引 建立 阶段 比 查询 阶段 更 需要 对 单个 词 项 进行 词典 查找 提供 高 性 能 的 支持 ， 这 
促使 了 索引 阶段 的 词典 与 查询 阶段 的 词典 在 结构 上 有 很 多 的 不 同 点 。 在 查询 阶段 ， 为 所 有 查 
询 词 项 查找 相应 的 词典 记录 的 开销 可 以 忽略 〈( 几 微 秒 )， 因 为 处 理 查 询 时 一 些 必须 执行 的 其 
他 计算 花费 的 时 间 开 销 比 它 大 得 多 。 然 而 ， 在 索引 阶段 ， 需 要 为 文档 集中 的 每 个 符号 都 执行 
词典 查找 一 一 GOV2 中 共 执 行 了 440 亿 次 查找 操作 。 因 此 ， 在 索引 建立 过 程 中 ,词典 是 主要 
的 瓶颈 ， 所 以 查找 操作 需要 尽 可 能 快 。 


43 位置 信息 列 表 


查询 处 理 中 使 用 到 的 实际 索引 数据 ， 其 实 是 存放 在 索引 的 位 置信 息 列 表 中 ， 通 过 搜索 引 
擎 的 词典 来 访问 。 每 个 词 项 的 位 置信 息 列表 中 存储 着 该 词 项 在 文档 集中 出 现 的 位 置信 息 。 根 
据 索引 的 类 型 (文档 编号 、 词 频 、 位 置 或 模式 独立 一 一 参见 2. 1. 3 节 )， 词 项 的 位 置信 息 列 
表 中 可 以 包括 更 多 或 更 少 的 内 容 ， 相 应 的 所 需 的 存储 空间 也 将 增加 或 减少 。 即 使 不 考虑 索引 
的 具体 类 型 ， 位 置信 息 数据 仍然 是 索引 数据 的 主要 部 分 。 总 体 来 说 ， 它 们 非常 大 ， 以 至 于 无 
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法 存放 在 内 存 中 ， 只 能 存储 到 磁盘 上 。 只 有 在 查询 处 理 过 程 中 ， 在 需要 的 基础 上 ， 作 为 查询 
处 理 例 程 ， 才 把 查询 词 项 的 位 置信 息 列 表 (或 其 中 的 一 小 部 分 ) 加 载 到 内 存 里 。 

为 了 使 位 置信 息 列表 从 磁盘 加 载 到 内 存 中 的 传输 尽量 高 效 ， 每 个 词 项 的 位 置信 息 列表 都 
应 该 存储 在 磁盘 的 连续 空间 中 。 这 样 才能 使 访问 列表 时 ， 所 需 的 磁盘 寻 道 操作 次 数 最 少 。 实 
验 中 使 用 的 计算 机 磁盘 驱动 器 (参见 附录 ) 一 次 磁盘 寻 道 就 读 人 0.5 MB 数据 ， 不 连续 的 位 
置信 息 列表 会 大 大 降低 系统 的 查询 性 能 。 

1. 随机 列表 访问 : 单项 索引 

搜索 引擎 的 位 置信 息 列 表 在 查询 阶段 的 访问 模式 由 处 理 查询 的 方式 决定 。 对 于 某 些 查 
询 ， 以 几乎 连续 的 方式 访问 位 置信 息 列表 。 对 于 其 他 查询 ， 则 要 求 搜索 引 敬 对 位 置信 息 列 表 
能 执行 高 效 的 随机 访问 。 词 组 查询 就 是 随机 访问 的 一 个 例子 ， 等 价 于 布尔 与 搜索 〈 从 本 质 上 
讲 ， 在 模式 独立 索引 中 处 理 词组 查询 与 在 文档 编号 索引 中 进行 布尔 与 搜索 的 过 程 是 等 价 的 ) 。 

回顾 第 2 章 ， 其 中 提 到 倒 排 索引 提供 的 两 种 主要 访问 方式 : next 和 prev， 为 给 定 词 项 
返回 在 某 一 索引 地 址 后 C@N 的 第 一 次 《最 后 一 次 ) 出 现 的 位 置 。 假 设 现在 需要 找 出 词组 
“iterative binary search” 在 GOV2 中 的 所 有 出 现 位 置 。 当 发 现 词 组 “iterative binary” 在 该 
文档 集中 仅 出 现 了 一 次 ， 在 位 置 [33 399 564 886, 33 399 564 887]， 调 用 冰 数 

next(“search”, 33 339 564 887) 
就 可 以 知道 词组 “iterative binary search” 是 否 出 现在 文档 集中 。 如 果 返 回 值 是 33 399 564 888, 
则 表示 文档 集 包含 该 词组 ， 否 则 表示 不 包含 。 

如 果 位 置信 息 列 表 以 整数 数组 的 形式 存储 在 内 存 中 ， 则 通过 二 分 查找 (或 跳跃 式 搜 索 
(galloping search) 参见 2. 1.2 节 ) 该 操作 就 能 变 得 十 分 高 效 。 因 为 词 项 “search” 在 
GOV2 中 大 概 出 现 了 5000 万 次 ， 所 以 二 分 查找 过 程 中 需要 

I log: (5X107) ]=26 
次 随机 列表 访问 。 如 果 位 置信 息 列 表 存 储 在 磁盘 上 ， 检 索 过 程 的 实现 方式 从 理论 上 来 讲 可 与 
上 述 过 程 一 样 。 然 而 ， 磁 盘 并 不 是 一 种 专门 用 于 随机 访问 的 设备 ,磁盘 寻 道 是 非常 耗 时 的 操 
作 ， 这 种 方法 代价 就 非常 高 了 。 考 虑 到 盘 片 旋转 延 时 和 寻 道 开销 ， 使 用 二 分 查找 进行 26 次 
随机 磁盘 访问 所 需要 的 时 间 很 容易 就 超过 了 200 ms, 

另外 一 种 替代 的 方案 就 是 只 使 用 一 个 顺序 读 入 操作 将 整个 位 置信 息 列 表 逐 步 加 载 到 内 在 
中 ， 这 样 就 可 以 避免 昂贵 的 磁盘 寻 道 操作 。 但 这 并 不 是 一 种 好 的 解决 方案 。 假 设 每 个 位 置信 
BBE 8 字 节 的 磁盘 空间 ， 那 么 计算 机 将 需要 超过 4 秒 的 时 间 把 5000 万 个 位 置信 息 从 磁盘 
加 载 到 内 存 中 。 

为 了 对 存储 在 磁盘 上 的 位 置信 息 列 表 提 供 高 效 的 随机 访问 ， 每 个 列表 都 使 用 了 一 种 辅助 
数据 结构 ， 称 为 单项 索引 (per-term index) 。 该 数据 结构 存储 于 磁盘 中 ， 并 位 于 对 应 的 每 个 
.位置 信息 列表 的 头 部 。 该 数据 结构 包含 了 列表 中 位 置信 息 子 集 的 一 个 副本 ， 例 如 ， 每 5000 
个 位 置信 息 的 一 个 副本 。 当 需要 访问 给 定 词 项 全 在 磁盘 上 的 位 置信 息 列表 时 ， 在 对 该 列表 
进行 任何 实际 的 索引 操作 之 前 ， 搜 索引 擎 首先 将 词 项 T 的 单项 索引 加 载 到 内 存 中 。next 方 
法 中 所 需 的 随机 访问 操作 可 以 通过 在 内 存 里 词 项 T 的 单项 索引 上 进行 二 分 查找 来 实现 〈 确 
定 大 约 是 在 磁盘 上 的 位 置信 息 列表 中 的 哪 5000 个 位 置信 息 中 ) ， 然 后 把 对 应 的 5000 个 位 置 
信息 加 载 到 内 存 中 ， 最 后 在 这 些 位 置信 息 上 进行 随机 访问 操作 。 

这 种 随机 访问 列表 的 方法 有 时 也 被 称 做 自 索 引 (self-indexing) (Moffat 和 Zobel, 1996). 

” 单项 索引 中 的 记录 称 为 同步 指针 (synchronization points), Æ 4-4 给 出 了 词 项 “denmark” 
的 位 置信 息 列表 ， 取 自 莎士比亚 文集 ， 该 列表 采用 了 单项 索引 ， 粒 度 为 6〈 即 一 个 同步 指针 
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指向 表 中 的 6 个 位 置信 息 ) 。 在 图 中 ， 如 果 调 用 next (250 000)， 该 方法 会 首先 确定 从 位 置 
248 080 开始 的 位 置信 息 块 是 可 能 包含 候选 位 置 的 数据 块 。 把 该 数据 块 加 载 到 内 存 中 ， 并 在 
该 数据 块 上 进行 二 分 查找 ， 最 后 返回 254 313。 类 似 地 ， 在 前 面 对 “iterative binary search” 
进行 词组 查找 的 例子 中 ， 对 词 项 “search” 的 列表 进行 随机 访问 仅 需 2 次 磁盘 寻 道 以 及 将 约 
”15 000 个 位 置信 息 (单项 索引 的 10 000 个 位 置信 息 和 候选 数据 块 包含 的 5000 条 记录 ) MR 
到 内 存 中 就 能 实现 一 一 共 需 约 30 ms 的 执行 时 间 。 





列表 头 单项 索引 (5 个 位 置信 息 ) 


TF: 27 239539 p 248080 255731 | 281080 | 








239539 | 239616 | 239732 
242435 | 242659 | 243223 
| 248080 | 248526 | 248803 
255731 | 256428 | 264780 
281080 | 281793 | 284087 





243251 
249056 | 254313 | 254350 
271063 | 272125 | 279107 
































图 4-4 一 个 关于 “denmark”( 取 自 莎 士 比 亚 文集 ) 的 模式 独立 位 置信 息 列表 ， 
该 列表 采用 单项 索引 : 一 个 同步 指针 指向 6 个 位 置信 息 。 同 步 指针 的 数 
量 由 列表 长 度 隐 式 地 决定 : | 27/61=5 


需要 合理 选择 单项 索引 的 粒度 ， 即 两 个 同步 指针 间 的 记录 数目 。 太 大 的 粒度 会 增 大 两 个 
同步 指针 间 的 数据 量 ， 也 就 是 增 大 了 每 次 随机 访问 时 所 需 加 载 到 内 存 的 数据 量 ;， 相反 ， 太 小 
的 粒度 会 增 大 单项 索引 的 体积 ， 同 时 也 就 增 大 了 初始 化 位 置信 息 列表 时 需要 从 磁盘 读 入 的 数 
据 量 (练习 4. 1 中 要 求 为 给 定 的 列表 计算 其 最 优 的 粒度 ) 。 

可 以 想象 ， 从 理论 上 讲 ， 对 于 一 个 包含 上 亿 条 记录 的 长 位 置信 息 列表 ， 即 使 选用 已 经 优 
化 的 单项 索引 〔 该 索引 的 粒度 能 让 总 的 磁盘 搜索 次 数 达 到 最 少 )， 该 列表 也 会 非常 庞大 以 至 
于 不 能 完全 放 和 内存 。 在 这 种 情况 下 ， 可 以 为 单项 索引 再 建立 一 个 索引 ， 其 至 递归 地 产生 多 
个 这 样 的 索引 ， 最 后 就 衍化 成 多 层 静 态 B 树 ， 它 可 为 位 置信 息 列表 提供 高 效 的 随机 访问 。 
然而 在 实际 应 用 中 ， 这 样 复杂 的 结构 很 少 能 用 上 。 一 个 简单 的 二 级 结构 就 足够 了 ， 此 结构 的 
每 个 磁盘 上 的 位 置信 息 列表 上 有 一 个 单项 索引 结构 。 例 如 ， 文 档 集 GOV2 中 出 现 最 频繁 的 
词 项 “the”， 该 词 项 在 文档 集中 出 现 了 约 10 亿 次 ， 在 未 经 压缩 前 ， 使 用 模式 独立 索引 的 位 
置信 息 列表 大 约 需 要 占据 80 亿 字 节 的 空间 〈 每 个 位 置信 息 占用 8 字 节 )。 假 设 词 项 “the” 
上 的 单项 索引 为 每 20 000 个 位 置信 息 设置 一 个 同步 指针 。 将 整个 包含 50 000 个 记录 的 单项 
索引 加 载 到 内 存 中 仅 需 要 一 次 磁盘 寻 道 ， 顺 序 传输 40 000 字 节 (~4.4 ms) 。 对 该 词 项 位 置 
信息 列表 的 每 次 随机 访问 操作 都 需要 一 次 额外 的 磁盘 寻 道 ， 同 时 把 160 000 字 节 数据 加 载 到 
内 存 中 (~1.7 ms)。 因 此 ， 对 该 词 项 位 置信 息 列 表 的 一 次 随机 访问 ， 共 需 约 30 ms (IK 
随机 磁盘 访问 ， 每 次 访问 需要 12 ms， 加 上 从 磁盘 读 入 560 000 字 节 所 需 的 时 间 )。 作 为 比 
较 ， 如 果 我 们 在 单项 索引 上 再 做 一 级 索引 ， 那 么 一 次 随机 访问 过 程 将 需要 额外 增加 至 少 3 次 
的 磁盘 寻 道 操作 ， 这 将 会 大 大 降低 索引 随机 访问 的 性 能 。 

与 直接 在 磁盘 上 的 位 置信 息 列表 进行 二 分 查找 相 比 ， 引 入 单项 索引 大 大 提高 了 随机 访问 
操作 的 性 能 。 然 而 ， 该 方法 真正 强大 之 处 在 于 允许 存储 可 变 长 的 位 置信 息 ， 如 这 样 的 形式 
(文档 编号 ， 词 频 ，( 文 档 中 出 现 位 置 ) ) ， 特 别 是 支持 压缩 的 位 置信 息 。 如 果 位 置信 息 不 是 以 
固定 大 小 (如 8 字 节 ) 的 整数 形式 存储 的 ， 而 是 以 压缩 形式 存储 的 ， 那 么 即使 是 一 个 简单 的 
二 分 查找 也 无 法 实现 。 然 而 ， 通 过 把 位 置信 息 都 压缩 成 一 些小 的 数据 块 ， 每 个 数据 块头 都 对 
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应 单项 索引 中 的 一 个 同步 指针 ， 搜 索引 擎 对 压缩 的 位 置信 息 列表 也 能 提供 有 效 的 随机 访问 。 
上 述 应 用 也 很 好 地 解释 了 “同步 指针 ”的 来 源 ， 同步 指针 能 帮助 在 解码 与 编码 之 间 建 立 同 
步 ， 也 就 是 说 ， 人 允许 在 已 经 压缩 的 位 置信 息 列表 的 任意 位 置 开始 解压 数据 。 详 细 请 参见 第 6 
章 讲述 的 压缩 倒 排 索引 。 

2. 前 缀 查询 

如 果 搜 索引 警 必须 支持 类 似 于 “inform x ”这 样 的 前 缀 查询 ， 那么 位 置信 息 列表 必须 按 
词 项 的 字母 顺序 进行 存储 。 在 GOV2 中 ， 共 有 4365 个 不 同 词 项 的 6700 万 次 出 现 匹配 “in 
form x ”这 一 前 级 查询。 通过 将 列表 按 字母 顺序 进行 存储 ， 就 可 以 保证 这 4365 个 词 项 的 个 
排列 表 在 倒 排 文档 中 彼此 接近 ， 因 此 在 磁盘 上 也 比较 接近 。 这 就 减少 了 单个 列表 之 间 的 寻 道 
距离 ， 因 此 可 以 获得 更 好 的 查询 性 能 。 如 果 所 有 列表 都 以 某 种 随机 形式 存储 在 磁盘 上 ， 即 使 
不 考虑 任何 处 理 查询 中 所 需 的 其 他 操作 ， 光 磁盘 寻 道 和 旋转 延 时 就 要 将 近 1 分 钟 〈4365 X 
12ms) 。 通 过 以 对 应 词 项 的 字母 顺序 来 组 织 倒 排 列表 ， 一 个 在 所 有 文档 中 查询 “inform x ” 
匹配 的 过 程 ， 若 用 词 频 索 引 ， 耗 时 不 到 2 s; 若 用 模式 独立 索引 ， 耗 时 也 才 6 s 左右 。 将 倒 
排 文档 中 的 列表 以 某 些 预定 义 的 顺序 〈 如 字母 顺序 ) 进行 存储 ， 对 高 效 的 索引 更 新 也 是 很 重 
要 的 ， 我 们 将 会 在 第 7 章 对 其 进行 讨论 。 

3. 独立 的 位 置 索引 

如 果 搜 索引 擎 是 基于 以 文档 为 中 心 的 位 置 索引 ere 词 频 、 词 项 在 每 个 文档 
内 出 现 的 位 置 ) ， 那 么 将 索引 分 成 两 个 独立 的 倒 排 索引 文件 也 是 一 种 常见 的 做 法 : 其 中 一 个 
索引 文件 保存 每 个 位 置 的 文档 编号 和 词 频 ， 另 外 一 个 索引 文件 保存 着 词 项 在 每 个 文档 中 出 现 
的 具体 位 置 。 将 索引 文件 分 成 两 个 的 根本 原因 是 ， 很 多 查询 和 很 多 评分 函数 都 不 需要 访问 到 
词 项 的 位 置信 息 。 通 过 把 这 些 信息 从 主 索 引 中 删除 出 来 ,查询 处 理性 能 就 可 以 得 到 提高 。 
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对 于 很 多 文档 集 来 说 ， 词 典 所 占 的 空间 都 比较 少 ， 可 以 完全 存储 在 一 合 机 器 的 内 存 中 。 
然而 大 的 文档 集 通 常 包含 成 千 上 万 个 不 同 的 词 项 ， 所 有 的 词典 记录 的 合集 也 相当 大 ， 要 将 其 
全 部 放 在 内 存 中 不 是 一 件 容 易 的 事情 。 例 如 ， 文 档 集 GOV2 中 约 有 4900 万 个 不 同 的 词 项 。 
这 些 词 项 〈 以 “\0” 作 为 结束 符 存 储 ) 共 占 用 482 MB 的 空间 。 假 设 现在 使 用 图 全 3 所 画 的 
有 序数 组 作为 搜索 引擎 中 词典 的 数据 结构 。 在 主 数组 中 使 用 额外 的 32 位 指针 ， 以 及 在 辅 数 组 
中 使 用 64 位 的 文件 指针 ， 这 样 来 维护 词典 中 的 每 个 词 项 就 使 得 内 存 开销 增加 了 12 义 49 一 588 
MB (大 约 )， 即 总 共和 需要 内 存 1070 MB。 因 此 ， 虽 然 文档 集 GOV2 比较 小 ， 可 以 用 一 台 机 器 就 能 
对 其 进行 管理 ， 但 是 它 的 词典 所 占 的 空间 太 大 导致 无 法 将 其 整 部 存储 到 内 存 中 。 

在 某 种 程度 上 ， 这 个 问题 可 以 通过 采用 词典 压缩 技术 (将 会 在 6.4 节 讨 论 ) 解决 。 但 是 
词典 压缩 技术 并 不 是 万 能 的 。 总 是 有 这 样 的 情况 ， 由 于 文档 集中 不 同 词 项 的 数量 非常 庞大 ， 
即使 进行 了 压缩 ， 也 不 能 把 整 部 词典 存储 到 内 存 中 。 例 如 ， 考 虑 一 种 索引 ， 每 个 位 置信 息 列 
表 不 是 代表 一 个 词 项 ， 而 是 一 个 二 元 词组 ， 如 “information retrieval”。 这 样 的 索引 对 于 处 
理 词组 查询 来 说 是 非常 有 用 的 。 然 而 ， 文 档 集 中 不 同 二 元 词组 的 数量 远 比 一 元 词 项 要 多 得 
多 。 从 表 4-3 可 见 ，GOV2 仅 包含 了 4900 万 个 词 项 ， 却 有 5. 2 亿 个 不 同 的 二 元 词组 。 如 果 . 
是 对 三 元 词组 而 不 是 二 元 词组 进行 索引 ， 那 么 一 点 儿 也 不 奇怪 情况 只 会 更 糟糕 一 -GOV2 中 
共有 23 亿 个 不 同 的 三 元 词组 ， 这 样 ， 把 整 部 词典 存储 到 内 存 更 是 不 可 能 实现 的 了 。 

把 整 部 词典 存储 于 磁盘 上 的 做 法 满足 了 空间 上 的 要 求 ， 但 却 降低 了 查询 的 速度 。 不 做 任 
何 更 改 ， 对 于 每 个 查询 词 项 磁盘 上 的 词典 都 至 少 多 一 次 额外 的 磁盘 寻 道 ， 这 是 因为 搜索 引擎 
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在 处 理 给 定 查 询 之 前 ， 都 需要 先 从 磁盘 上 取出 每 个 词 项 的 词典 记录 。 因 此 ， 单 纯 使 用 磁盘 存 
储 也 不 能 得 到 令 人 满意 的 结果 。 
表 4-3 3 个 文档 集中 一 元 词 项 、 二 元 词组 、 三 元 词组 的 数量 。 二 元 词组 的 
数量 要 比 一 元 词 项 的 数量 约 大 一 个 数量 级 
词 条 元 j 一 元 词 三 元 词组 
莎士比亚 文集 1. 3X105 6. 5X105 
TREC45 3.0X108 x , 9.4107 
GOV2 4.4X 1010 ; : 2. 3X 109 








这 个 问题 一 个 可 能 的 解决 方案 是 采用 交错 词典 (interleaving dictionary), 4A 4-5 所 
示 。 在 交错 词典 中 ， 所 有 的 记录 都 存储 于 磁盘 上 ， 每 个 记录 入 口 恰好 位 于 对 应 位 置信 息 列表 
之 前 ， 这 样 搜索 引擎 就 可 以 通过 一 次 顺序 读 操 作 将 词典 记录 和 位 置信 息 列 表 取 出 。 除 了 将 数 
据 存储 于 磁盘 上 ， 同 时 ， 保 留 某 些 〈some) 词典 记录 〈 不 是 所 有 ) 在 内 存 中 。 当 搜索 引擎 
需要 找到 某 个 词 项 的 位 置信 息 列表 时 ， 它 首先 在 内 存 词 典 记 录 的 有 序列 表 上 进行 一 次 二 分 查 
找 ， 然 后 在 得 到 的 两 个 记录 之 间 进 行 一 次 顺序 扫描 。 如 图 4-5 的 例子 所 示 ， 若 要 检索 
“shakespeareanism”， 首 先 可 以 确定 该 词 项 的 位 置信 息 列 表 〈 如 果 在 索引 中 ) 肯定 位 于 
“shakespeare” 和 “shaking” 这 两 个 位 置信 息 列表 之 间 ， 然 后 把 这 个 区 间 内 的 索引 项 都 加 载 
到 内 存 中 ， 并 按 线性 的 方式 扫描 到 “shakespeareanism” 的 词典 记录 (同时 也 就 找到 了 它 的 
位 置信 息 列表 )。 


| 内 存 词典 (OAL TERRE) | 


J shadow shakespeare shaking shall 7 -o | 
443326763 443396197 443408593 443423588 | E 











| 
| 
| z shakes neater: 


| 蔽 相位 是 信息 文件 (MARMOREO o a Ce | we _ | 





图 4-5 交错 词典 和 位 置信 息 列表 ， 每 个 磁盘 上 的 倒 排列 表 都 以 对 应 词 项 的 词典 记录 开头 。 内 存 词 
典 仅 包含 某 些 〈some) 词 项 的 记录 。 为 了 找 出 “shakespeareanism” 的 位 置信 息 列 表 ， 需 要 
在 磁盘 数据 “shakespeare” 和 “shaking” 之 间 进 行 一 次 顺序 扫描 


交错 词典 与 4. 3 节 中 的 自 索 引 技 术 非 常 相似 ， 它 们 都 是 以 顺序 读 人 少量 额外 数据 的 方式 
避免 了 随机 访问 磁盘 操作 。 因 为 对 磁盘 进行 顺序 访问 比 随 机 访问 要 快 得 多 ， 所 以 只 要 从 磁盘 
加 载 到 内 存 的 额外 数据 量 不 大 ， 这 种 折 中 还 是 值得 的 。 为 了 保证 额外 加 载 的 数据 量 不 大 ， 我 
们 需要 对 磁盘 词典 记录 和 预 加 载 到 内 存 中 最 接近 该 记录 的 词典 记录 之 间 的 数据 量 设 定 一 个 上 
限 。 我 们 称 这 个 上 限 为 索引 块 大 小 Cindex block size)。 例 如 ， 对 于 索引 中 的 每 个 词 项 TT， 
如 果 在 T 的 磁盘 词典 记录 前 ， 可 以 保证 搜索 引擎 需要 在 磁盘 上 读 取 的 数据 量 不 超过 1024 F 
节 ， 那么 就 可 以 说 该 索引 的 索引 块 大 小 是 1024 字 节 。 

表 4-4 列 出 了 交错 词典 对 内 存 消耗 和 搜索 引擎 的 列表 访问 性 能 的 影响 (使 用 GOV2 文档 
集 )。 如 果 没 有 交错 词典 ， 搜 索引 警 需要 维护 内 存 中 的 4950 万 条 词典 记录 ， 同 时 访问 一 个 随 
机 位 置信 息 列表 的 第 一 个 位 置信 息 平均 需要 11.3 ms (磁盘 寻 道 十 旋转 延迟 ) 。 若 把 数据 块 
的 大 小 设 定 为 B=1024 字 节 ， 则 内 存 词典 记录 就 可 减少 至 300 万 条 。 同 时 ， 搜 索引 警 的 列 
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表 访问 延 时 访问 某 个 随机 选择 的 列表 的 第 一 个 位 置信 息 〉 仅 增加 了 0. 1 ms 一 一 完全 可 以 
忽略 的 一 个 开销 。 随 着 数据 块 增 大 ， 内 存 词典 记录 数 将 减少 ,但 是 索引 访问 延 时 会 增加 。 与 
完整 的 内 存 词典 相 比 ， 即 使 是 B 一 256 KB 这 样 大 的 数据 块 ， 其 额外 的 开销 也 不 过 是 每 查询 
JUBA ME . 


#44 GOV2 的 (4950 万 个 不 同 词 项 ) 模式 独立 索引 在 使 用 交错 词典 后 的 效果 。 当 索引 块 的 大 小 
B=16 384 字 节 时 ， 内 存 词典 记录 数 减少 了 99% 以上， 而 只 是 稍微 减 慢 了 查询 速度 F 
均 每 个 查询 慢 了 1 ms 








索引 块 大 小 ( 字 节 )》 1024 4096 16 384 65 536 262 144 
内 存 词典 记录 数 (X10s) 3.01 0. 91 0. 29 0. 10 0. 04 
平均 索引 访问 延迟 (ms) 11.4 11.6 12. 3 13. 6 14.9 


需要 强调 的 是 ， 数 据 块 大 小 为 B 的 交错 词典 ， 与 为 每 B 字 节 的 索引 数据 维护 一 个 内 存 
词典 记录 相 比 ， 所 耗费 的 内 存 空间 是 不 同 的 。 例 如 ， 文 档 集 GOV2 的 模式 独立 索引 (已 压 
缩 ) 的 大 小 是 62 GB。 可 是 ， 设 置 索引 块 大 小 为 B=64 KB， 不 等 于 词典 记录 是 100 万 (62 
GB/64 KB~100 A) 条 ， 而 是 不 到 1/10。 这 是 因为 像 “the” 和 “of” 这 类 高 频 词 ， 尽 管 它 
们 的 位 置信 息 列表 占用 的 磁盘 空间 要 远 远大 于 64 KB 〈“the” 的 压缩 位 置信 息 列 表 大 小 约 为 
1 GB) ， 但 是 每 个 词 项 仅 需要 一 个 内 存 词典 记录 。 

实际 应 用 中 ， 大 小 介 于 4~16 KB 的 数据 块 就 能 有 效 地 将 内 存 词典 缩减 至 一 个 可 接受 的 
大 小 ， 特 别 是 使 用 词典 压缩 技术 (参见 6.4 节 ) 将 少数 剩 下 的 内 存 词典 记录 进一步 压缩 后 ， 
空间 耗费 更 少 了 。 对 于 每 个 查询 ， 磁 盘 传输 这 样 大 小 的 数据 块 只 需 不 到 1 ms， 是 不 会 引起 
任何 性 能 问题 的 。 

消除 词 项 和 位 置信 息 间 的 差异 性 

通过 消除 词 项 和 位 置信 息 间 的 结构 差异 ， 同 时 将 索引 数据 视 为 一 系列 这 样 的 形式 对 《〈 词 
项 ， 位 置信 息 ) ， 我 们 可 以 进一步 改进 交错 词典 方法 。 将 磁盘 上 的 索引 分 成 一 系列 大 小 固定 
的 索引 块 ， 每 个 块 可 包含 64 KB 数据 。 所 有 位 置信 息 都 按 对 应 词 项 的 字母 顺序 存储 在 磁盘 
E. 与 之 前 的 做 法 相同 ， 同 一 词 项 的 位 置信 息 也 按 升序 排列 。 每 个 词 项 的 词典 记录 有 可 能 在 
磁盘 上 保存 了 多 次 ， 因 此 每 个 索引 块 中 的 词典 记录 就 至 少 包 含 了 词 项 的 一 个 位 置信 息 。 内 存 
中 用 于 访问 磁盘 上 的 索引 的 数据 结构 是 一 个 简单 的 数组 ， 包 含 每 个 索引 块 的 一 个 形式 对 “ 词 
项 ， 位 置信 息 ) ， 分 别 对 应 该 索引 块 的 第 一 个 词 项 及 其 第 一 条 位 置信 息 。 

图 4-6 给 出 了 这 种 新 的 索引 结构 的 一 个 例子 (数据 源 于 莎士比亚 文集 一 个 模式 独立 的 索 
引 ) 。 在 这 个 例子 中 ， 调 用 函数 

next(“hurried”, 1 000 000) 
时 ， 首 先 会 把 第 二 个 数据 块 〈 以 “hurricano” 开 始 ) 从 磁盘 加 载 到 内 存 中 ， 然 后 会 搜索 该 
数据 块 中 与 查询 匹配 的 记录 位 置 ， 最 后 会 返回 第 一 条 匹配 的 记录 位 置 (1 085 752)。 调 用 
函数 

next(“hurricano”, 1 000 000) 
时 ， 首 先 会 把 第 一 个 数据 块 〈 以 “hurling” 开 始 ) 从 磁盘 加 载 到 内 存 中 ， 但 是 没 找到 匹配 
的 记录 ， 接 着 会 访问 第 二 个 数据 块 ， 并 返回 一 条 位 置信 息 1 203 814。 

词典 和 位 置信 息 列表 的 结合 形式 ， 将 上 面 介 绍 的 交错 词典 和 4. 3 节 介绍 的 自 索引 技术 巧 
妙 结合 起 来 。 通 过 这 种 索引 结构 ， 一 次 对 任意 词 项 的 位 置信 息 列 表 的 随机 访问 只 需要 一 次 磁 
盘 寻 道 (这 里 忽略 了 将 每 个 词 项 的 索引 项 加 载 到 内 存 中 这 一 初始 化 步骤 ) 。 该 索引 结构 不 好 - 
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的 地 方 是 : 相 比 于 分 别 采 用 自 索 引 和 交错 词典 这 两 项 技术 ， 它 需要 消耗 更 大 的 内 存 空 间 。 若 
| B=64 KB， 则 一 个 62 GB E 100 AATA 


| emia | 
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图 4 6 “将 词典 和 位 置信 息 列表 合并 索引 被 分 成 一 个 个 大 小 均 为 7 72 2 字 节 的 数据 块 。 内 存 中 
词典 的 每 条 记录 形式 为 〈 词 项 ， 位 置信 息 )， 对 应 给 定 索引 块 中 第 一 个 词 项 和 第 一 
条 位 置信 息 。 为 了 便于 阅读 ， 在 索引 数据 中 加 入 了 记录 分 隔 符 “ 提 ” 


4.5 索引 的 构建 


在 本 章 前 面 的 章节 ， 你 已 经 学 习 了 有 关 倒 排 索引 的 各 个 组 成 部 分 。 即 使 所 有 的 位 置信 息 
列表 都 存储 于 磁盘 上 ， 同 时 在 没有 足够 的 内 存 空间 为 索引 存放 整 部 词典 的 情况 下 ， 通 过 将 它 
们 结合 起 来 ， 依 然 可 以 对 索引 内 容 实现 有 效 的 访问 。 现 在 我 们 讨论 如 何 为 一 个 给 定 文档 集 高 
效 地 建立 一 个 倒 排 索引 。 

从 一 个 抽象 的 观点 来 看 ， 一 个 文档 集 可 视 为 是 一 个 词 项 出 现 的 序列 一 一 元 组 的 形式 为 
《 词 项 ， 出 现 位 置 ) 对 ， 其 中 出 现 位 置 (position) 是 从 文档 集 开 头 作 为 开始 位 置 的 一 个 计 
数 ， 词 项 〈term) 是 出 现在 该 位 置 上 的 词 项 。 图 4-7 展示 了 上 述 理解 方式 下 的 莎士比亚 文集 
的 某 个 片段 。 当 以 顺序 方式 读 人 文集 时 ， 这 些 元 组 很 自然 地 就 会 按 其 第 二 项 进行 排序 ， ie 
项 在 文档 集 的 位 置信 息 。 索 引 构 建 的 任务 就 是 改变 这 些 元 组 的 顺序 ， 使 其 按 它们 的 第 一 
CBN) 来 进行 排序 (原来 第 二 项 的 关系 被 打破 了 )。 一 旦 建立 了 新 的 顺序 ， A 
引 及 其 他 的 辅助 数据 结构 就 是 一 个 相对 容易 的 任务 了 。 
文档 片段 

(SPEECH) 
(SPEAKER) JULIET (/SPEAKER) 
(LINE) O Romeo, Romeo! wherefore art thou Romeo? (/LINE) 
(LINE) ... 
原始 元 组 序 (文档 序 ) 

., (“(speech)”, 915487), (“(speaker)”, 915488), (“juliet”, 915489), 
(“(/speaker)”, 915490), (“(line)”, 915491), (“o”, 915492), (“romeo”, 915493), 
(“romeo”, 915494), (“wherefore”, 915495), (“art”, 915496), (“thou”, 915497), 
(“romeo”, 915498), (“(/line)”, 915499), (“(line)”, 915500), ... 

新 元 组 序 (RIF) 
.., (“(line)”, 915491), (“(line)”, 915500), ..., 
(“romeo”, 915411), (“romeo”, 915493), (“romeo”, 915494), (“romeo”, 915498), 


..., (“wherefore”, 913310), (“wherefore”, 915495), (“wherefore”, 915849), ... 


图 4-7 索引 构建 过 程 可 视 为 是 对 文档 集中 的 元 组 进行 重 排序 的 过 程 。 元 组 
由 原先 的 文档 序 (collection order) 〈 根 据 位 置信 息 排序 ) 重 排 为 新 
的 索引 序 (index order) 《根据 词 项 排序 ) 
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一 般 来 说 ， 建 立 索引 的 方法 可 以 分 为 两 类 : 基于 内 存 的 索引 构建 和 基于 磁盘 的 索引 构 
建 。 基 于 内 存 的 索引 构建 在 主 存 里 建立 给 定 文档 集 的 索引 ， 因 此 只 可 用 于 比 可 用 内 存 空间 相 
对 要 小 的 文档 集中 。 然 而 ， 它 们 是 更 复杂 的 基于 磁盘 的 索引 构建 方法 的 基础 。 基 于 磁盘 的 方 
法 用 于 为 那些 很 大 文档 集 ， 即 比 可 用 内 存 空间 要 大 得 多 的 文档 集 建立 索引 。 

跟 之 前 的 做 法 一 样 ， 我 们 的 讨论 仅 限于 模式 独立 索引 ， 因 为 以 后 在 讨论 更 复杂 的 索引 类 
型 时 会 讨论 到 更 多 需要 考虑 的 细节 ， 如 文档 层次 的 位 置 索引 ， 而 现在 我 们 可 忽略 这 些 细 节 ， 
并 将 注意 力 放 在 算法 的 本 质 上 。 这 里 介绍 的 技术 同样 适用 在 其 他 类 型 的 索引 上 。 


4.5.1 基于 内 存 的 索引 构建 法 


先 考 虑 构建 索引 最 简单 的 形式 ， 即 需要 索引 的 文档 集 足 够 小 ， 能 整个 放 到 内 存 中 。 为 了 
为 这 样 的 文档 集 构 建 一 个 索引 ， 索 引 过 程 需要 维护 以 下 数据 结构 ， 

。 一 部 词典 ， 支 持 高 效 的 单词 项 查找 和 插 人 操作 ; 

。 一 个 可 扩展 〈 即 动态 ) 的 链表 数据 结构 ， 用 于 存放 每 个 词 项 的 位 置信 息 。 

假如 这 两 个 数据 结构 都 已 经 构建 好 ， 那 么 索引 构建 过 程 就 非常 直观 了 ， 如 图 48 所 示 。 
如 果 用 合适 的 数据 结构 来 实现 词典 和 可 扩展 位 置信 息 列表 ， 那 么 这 种 方法 就 非常 高 效 ， 搜 索 
引擎 可 在 1 秒 内 对 莎士比亚 文档 集 建立 索引 。 因 此 ,需要 讨论 两 个 问题 ，1) 应 该 为 词典 选 
用 怎样 的 数据 结构 ? 2) 应 该 为 可 扩展 位 置信 息 列表 选用 怎样 的 数据 结构 ? 


buildIndex (inputTokenizer) = | 








position — 0 
while inputTokenizer.hasNext() do 
T + input Tokenizer. getNext() 
从 7 中 取出 词典 记录 5 如 有 必要 ， 可 创建 新 记录 


1 

2 

3 

4 

s 在 7 的 位 置信 息 列表 后 扩展 新 的 位 置信 息 position 
6 position — position + 1 

7 按 字典 序 对 所 有 词典 记录 排序 

8 for each 词典 中 的 词 项 Tdo 

9 将 7 的 位 置信 息 列 表 写 入 磁盘 
10 ”将 词典 写 入 磁盘 

11 


return 








图 4-8 基于 内 存 的 索引 构建 算法 ， 使 用 两 种 抽象 数据 类 型 ， 基 
于 内 存 的 字典 和 扩展 位 置信 息 列表 


1. 建立 索引 阶段 的 词典 

索引 构建 过 程 中 的 词典 实现 方法 需要 对 单词 项 查找 和 词 项 插入 提供 有 效 的 支持 。 支 持 这 
类 操作 的 数据 结构 是 很 常见 的 ， 很 多 公共 程序 库 中 都 有 。 例 如 ，SGIS 提 供 的 C 十 十 标准 模 
WE STL) 中 提供 的 map 数据 结构 (二 分 查找 树 ) 和 hash_map 数据 结构 (可 变 长 哈 希 
表 ) ， 都 可 执行 索引 构建 阶段 中 需要 的 查询 和 插 人 操作 。 当 你 在 实现 自己 的 索引 算法 时 ， 你 
可 以 尝试 使 用 这 些 已 实现 的 数据 结构 中 的 某 一 个 。 但 是 ， 并 不 建议 在 所 有 的 情况 下 都 这 
样 做 。 

我 们 在 GOV2 的 一 个 子 集 上 度量 STL 数据 结构 的 性 能 ， 首 先 为 文档 集中 的 前 10 000 个 
文本 建立 索引 。 结 果 如 表 4-5 Bm. ERS EF, STL 的 map 和 hash map 的 查找 性 能 似乎 能 
有 效 满足 索引 构建 的 需求 。 平 均 情况 下 ， 每 个 查找 操作 map 需 630 ns; hash map 要 快 一 
点 ， 只 需要 240 ns。 


© www. sgi. com/tech/stl/ 
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表 4-5 索引 文档 集 GOV2 的 前 10 000 个 文档 (4 1400 万 个 词 条 ; 181 334 个 不 同 的 词 项 ) 。 
每 个 词 条 的 平均 词典 查找 耗 时 都 是 微 秒 级 。"“ 了 蛤 希 表 ”那些 行 表示 一 个 自 定义 的 基于 
带 链 表 结 构 的 定 长 哈 希 表 的 手工 词典 的 实现 























词典 实现 查找 时 间 字符 串 比较 
二 分 查找 树 (STL map) 0. 63 ps 每 符号 单元 18. 1 每 符号 单元 
变 长 哈 希 表 (STL hash_map) 0. 24 ps 每 符号 单元 2. 2 每 符号 单元 
BER (2 记录， 向 前 插入 ) 6. 11 ps 每 符号 单元 140 每 符号 单元 
AER “(2X 记录， 向 后 插入 ) 0. 37 ps 每 符号 单元 8. 2 每 符号 单元 
哈 希 表 CLER, ME) 0. 31 ps 每 符号 单元 4.8 每 符号 单元 
EAR (2 记录 ， 向 前 插入 ) 0. 32 ns 每 符号 单元 10. 1 每 符号 单元 
RAR (2 记录 ， 向 后 插入 ) 0. 09 us 每 符号 单元 1.5 每 符号 单元 
HEK CRR, WE) 0.09 ps 每 符号 单元 1. 3 每 符号 单元 


假设 现在 需要 索引 整个 GOV2 文档 集 ， 而 不 仅仅 是 前 10 000 个 文本 。 假 设 查 找 操作 性 
能 维持 大 致 一 样 的 水 平一 个 理想 化 的 假设 ， 因 为 词典 中 的 词汇 数量 将 持续 增长 )， 那 么 用 
hash_map 对 GOV 中 的 440 亿 个 词 条 均 执 行 一 次 查找 操作 ， 所 需要 的 全 部 时 间 是 : 
44X 10° X240 ns 一 10 560 s~3h 


已 知 最 快 的 公共 检索 系统 为 同样 地 文档 集 建立 索 引 需 时 为 4 小 时 ,包括 读 人 文件 、 语 法 分 
析 ， 并 把 (压缩 后 ) 索引 写 人 人 磁盘， 由 此 可 见 ， 我 们 还 有 提升 的 空间 。 这 就 需要 自 定义 一 个 
词典 的 实现 。 

在 设计 我 们 自己 的 词典 实现 时 ， 我 们 要 尝试 优化 要 处 理 的 数据 类 型 的 性 能 。 由 第 1 章 可 
知 ， 自 然 语言 文档 集中 词 频 的 出 现 大 致 符合 齐 夫 分 布 。 该 分 布 的 一 个 主要 性 质 是 文档 集中 大 
量 的 词 条 仅 对 应 着 少量 的 词 项 。 例 如 ， 尽 管 文档 集 GOV2 中 大 约 有 5000 万 个 不 同 的 词 项 ， 
但 超过 90% 的 词 项 出 现 都 是 那 10 000 个 最 常见 的 词 项 。 因此 ， 大 部 分 的 词典 查找 操作 都 是 
为 了 加 载 那 一 小 部 分 非常 高 频 的 词 项 。 如 果 词 典 基 于 哈 希 表 实现 ， 且 冲突 通过 链表 〈 如 图 4- 
2 所 示 ) 解决 ， 则 使 这 些 频繁 词 项 的 词典 记录 都 靠近 每 个 链表 的 开头 部 分 就 非常 重要 了 。 这 
可 以 通过 两 种 不 同 的 方式 来 实现 ， 

D 向 后 插入 启发 式 方法 (insert-at-back heuristic) 。 如 果 一 个 词 项 是 比较 频繁 的 ， 那 么 
它 在 输入 的 词 条 流 里 的 出 现 会 较 靠 前 。 相 反 ， 如 果 一 个 词 项 的 第 一 次 出 现 位 置 相对 靠 后 ， 那 
么 这 个 词 项 就 很 有 可 能 不 是 高 频 词 。 因 此 ， 当 向 已 有 哈 希 表 中 的 某 个 链表 中 加 入 一 个 新 词 
时 ， 需 要 把 该 词 项 播 到 链表 的 末尾 。 这 样 做 ， 高 频 词 插 人 较 早 ， 就 能 留 在 链表 的 前 部 ， 而 屠 
些 非 高 频 词 就 会 留 在 链表 的 后 部 。 

2) 前 移 启 发 式 方法 (move-to-front heuristic) 。 如 果 词 项 是 文档 集中 的 高 频 词 ， 那 么 应 
该 出 现在 哈 希 表 的 链表 的 前 部 。 类 似 于 向 后 插入 启发 式 方法 ， 前 移 启 发 式 方法 把 新 词 项 插入 
到 对 应 链表 的 末尾 。 并 且 ， 当 执行 一 次 词 项 查找 操作 时 ， 若 在 链表 的 前 部 没有 找到 对 应 的 词 
项 信息 ， 那 么 就 把 该 词 项 移 到 链表 的 头 部 。 这 样 ， 当 下 一 次 查找 该 词 项 时 ， 该 词 项 的 词典 记 
录 就 会 在 哈 希 表 的 前 部 〈 或 接近 ) 。 

我 们 评价 这 两 种 方法 的 查找 性 能 (两 种 方法 均 使 用 哈 希 槽 数目 固定 的 自 定 义 的 喻 希 结 
构 )， 同 时 将 它们 与 第 三 种 将 新 词 项 插入 到 对 应 链表 头 部 的 方法 ( 称 为 向 前 插入 启发 式 方法 
(insert-at-front heuristic)) 进行 比较 。 表 45 列 出 了 性 能 指标 的 结果 。 

向 后 播 人 和 前 移 启 发 式 方法 的 性 能 基本 一 样 〈 哈 希 槽 为 2* 个 ， 每 次 查找 需 时 90 ns), 
仅 当 哈 希 表 较 小 时 ， 前 移 启发 式 方法 才 比 向 后 揪 人 局 发 式 方法 略 占 优势 〈 当 哈 希 槽 为 22 个 
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时 ， 要 快 20%)。 可 是 ， 向 前 插入 启发 式 方法 的 性 能 表现 就 比较 差 ， 大 约 比 前 移 启发 式 方法 
慢 3~20 倍 。 为 了 理解 这 个 巨大 性 能 差异 的 原因 ， 请 看 表 4-5 的 “字符 串 比 较 ” 那 一 列 。 当 
将 GOV2 的 前 10 000 个 文档 的 181 344 个 词 项 存储 到 一 个 有 16 384 (24) 个 哈 希 槽 的 哈 希 
表 中 时 ， 我 们 期 望 平均 每 个 链表 的 长 度 为 11。 如 果 使 用 向 前 插入 启发 式 方法 ， 词 典 在 找到 
查询 词 项 前 平均 需要 10. 1 次 字符 串 比较 操作 。 这 是 因为 常见 词 项 通常 很 早 就 出 现在 文档 集 
中 ， 而 向 前 插入 方法 将 它们 放 到 了 相应 链表 的 后 部 。 这 就 导致 该 方法 查找 性 能 较 差 。 顺 便 提 
一 句 ，STL 实现 的 hash_map 也 是 将 新 的 数据 项 插 人 到 相应 链表 的 头 部 ， 这 也 正 是 它 为 何在 
基准 测试 中 性 能 不 佳 的 原因 。 
采用 前 移 启 发 式 方法 实现 的 基于 哈 希 的 词典 对 哈 希 表 的 大 小 非常 敏感 。 实 际 上 ， 即 使 在 
给 一 个 包含 成 千 上 万 个 不 同 词 项 的 文档 集 做 索引 时 ， 一 个 较 小 的 哈 希 表 ， 也 许 只 有 2* 个 哈 
希 槽 ， 就 能 有 效 地 实现 词典 查找 操作 。 
2. 可 扩展 常 驻 内 存 位 置信 息 列表 
除了 词典 实现 ， 简 单 的 内 存 索引 构建 方法 还 有 一 个 有 趣 的 事情 ， 就 是 可 扩展 内 存 位 置信 
息 列 表 的 实现 。 就 像 前 面 提 到 的 ， 每 个 位 置信 息 列 表 都 以 独立 链表 的 形式 实现 ， 这 样 可 以 高 
效 地 支持 将 新 的 位 置信 息 加 入 到 已 有 列表 中 。 这 种 方法 的 缺点 是 需要 消耗 大 量 的 内 存 空间 
对 于 每 个 32 位 (或 64 位) 的 位 置信 息 ， 索 引 过 程 需要 额外 存储 一 个 32 位 (或 64 位 ) 的 指 
针 ， 因 此 导致 存储 空间 增加 50% ~200% 。 
已 经 提出 了 各 种 减少 可 扩展 位 置信 息 列 表 存 储 空间 的 方法 。 例 如 ， 可 以 使 用 定 长 数组 代 
赫 链表 。 这 样 就 可 以 减少 链表 中 的 next 指针 造成 的 额外 开销 。 遗 憾 的 是 ， 每 个 词 项 的 位 置 
信息 列表 的 长 度 并 不 能 预先 知道 ， 因 此 这 种 方法 需要 对 输入 数据 进行 额外 的 扫描 : 第 一 遍 扫 
描 ， 收 集 词 项 的 统计 信息 ， 并 为 每 个 词 项 的 位 置信 息 列表 分 配 空间 ， 第 二 遍 扫 描 ， 将 位 置信 
息 存 储 到 预 分 配 的 数组 中 。 当 然 ， 两 次 读 人 输 人 数据 将 会 降低 索引 性 能 。 
另外 一 个 解决 方法 是 为 词典 中 的 每 个 词 项 预先 分 配 一 个 位 置信 息 数 组 ， 但 允许 索引 过 程 
中 动态 改变 数组 的 大 小 ， 例 如 ， 调 用 函数 realloc (假设 编程 语言 和 运行 时 环境 支持 这 类 操 
作 )。 当 发 现 一 个 新 词 项 时 ， 就 给 该 词 项 的 位 置信 息 赋予 一 个 初始 Gnt) 空间 例如， 
init=16 字 节 )。 每 当 已 有 数组 空间 已 满 ， 就 调用 realloc 操作 去 增 大 该 数组 。 通 过 采用 按 比 
例 预 分 配 的 策略 ， 也 就 是 ， 在 重 分 配 操 作 中 总 共 分 配 以 下 数量 的 字 节 。 
Snew —=max{ Soa t init, kX Saa? (4-2) 
其 中 ，sou 是 该 数组 原本 的 大 小 ，k 是 一 个 常数 ， 称 为 预 分 配 因 子 (preallocation factor), 
这 样 调用 函数 realloc 的 次 数 就 会 比较 少 〈 每 个 位 置信 息 列表 所 占 空 间 大 小 的 对 数 ) 。 尽 管 如 
此 ， 该 方法 还 是 存在 一 些 问 题 的 。 如 果 预 分 配 因 子 设置 太 小 ， 那 么 在 索引 构建 过 程 中 将 会 引发 
大 量 的 重 分 配 操 作 ， 有 可 能 会 影响 搜索 引擎 的 索引 性 能 。 如 果 太 大 ， 由 于 分 配 的 空间 没 用 上 ， 
就 会 浪费 掉 大 量 的 内 存 空间 〈 内 部 碎片 ) 例如 ， 如 果 k= 二 2， 那 么 平均 25% 的 分 配 内 存 将 空置 。 
第 三 种 以 消耗 较 少 内 存 空 间 实 现 可 扩展 内 存 位 置信 息 列 表 的 方法 是 采用 一 种 特别 的 链表 
结构 ， 多 个 位 置信 息 共 用 一 个 next 指针 ， 而 指针 指向 信息 组 〈group) ， 而 不 是 单个 的 位 置 
信息 。 当 向 词典 中 加 入 一 个 新 词 项 时 ， 为 它 的 位 置信 息 分 配 一 个 小 空间 ， 比 如 16 字 节 。 当 
一 个 词 项 的 位 置信 息 列表 的 预 留 空 间 用 完 时 ， 就 新 建 一 个 位 置信 息 组 。 需 要 分 配给 这 个 组 的 
空间 大 小 为 
Saw =min{ limit ,max{16,€k—1) X Swa?) (4-3) 
HH, limit 是 一 个 位 置信 息 组 的 大 小 上 界 ， 例 如 256 个 位 置信 息 ; seu 是 指 当前 已 分 配给 
位 置信 息 的 内 存 大 小 ; bk 是 指 预 分 配 因 子 ， 与 realloc 中 的 一 样 。 
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将 多 个 位 置信 息 合并 为 组 ， 以 及 若干 个 位 置信 息 共 用 一 个 next 指针 的 情况 如 图 4-9 所 
示 。 每 个 列表 节点 保留 多 个 值 的 链表 数据 结构 有 时 候 被 称 做 松散 链表 〈unrolled linked 
list) ， 与 编译 器 优化 技术 中 使 用 的 循环 展开 技术 类 似 。 在 索引 构建 过 程 中 ,.- 我 们 称 这 种 方法 
为 分 组 (grouping). 


[u 已 用 空间 癌 ] 未 用 空间 






{| 


| | “hurlyburly” | +] 


| 
| 
LL Er 





图 4-9 单项 可 扩展 位 置信 息 列 表 ， 链表 的 每 一 项 是 一 个 位 置信 息 组 (松散 链表 (unrolled linked 
list))。 按 比例 预 分 配 资源 (这 里 预 分 配 因子 k= 二 2 为 调节 两 类 空间 开销 所 占 的 比例 提供 
了 一 个 有 用 的 方法 。 这 两 类 空间 开销 是 ， 由 next 指针 导致 的 额外 空间 开销 和 由 内 部 碎片 导 
致 的 额外 空间 开销 


分 组 技术 中 对 预 分 配 空间 设置 一 个 上 界 可 以 控制 内 部 碎片 。 同 时 ， 又 不 会 构成 性 能 上 的 
问题 ， 并 不 像 realloc 中 的 那样 ， 为 已 有 列表 预 留 更 多 的 空间 是 一 个 非常 轻 量 级 的 操作 ， 不 
需要 索引 过 程 为 任何 信息 数据 重新 分 配 。 

4 种 链表 空间 分 配 策略 上 的 性 能 评价 一 一 简单 链表 、 两 遍 扫 描 、realloc 和 分 组 链表 一 一 - 
如 表 4-6 所 示 。 两 遍 扫 描 法 消耗 最 少 的 内 存 空间 ， 但 耗 时 几乎 是 分 组 链表 的 两 售 。 使 用 预 分 
配 因子 k=1.2, realloc 比 空间 最 优 的 两 遍 扫描 法 要 多 用 约 10 多 的 内 存 空 间 。 这 与 约 一 半 的 
预 分 配 内 存 空间 未 使 用 的 假设 是 一 致 的 。 另 外 ， 分 组 链表 法 仅 比 两 遍 扫描 法 多 用 3% 的 内 存 
空间 。 除 此 之 外 ， 分 组 链表 要 比 realloc HR 16% (CPU 时 间 分 别 为 61 秒 和 71 秒 ) 。 

表 4-6 索引 文档 集 TREC45。 使 用 不 同 内 存 分 配 策略 去 管理 可 扩展 内 存 位 置信 息 列表 (32 位 位 置 


信息 ; 32 位 指针 ) 时 ， 索 引 构 建 的 性 能 。 以 小 组 的 形式 组 织 同一 词 项 的 位 置信 息 ， 并 且 
使 用 链表 将 它们 链接 起 来 的 策略 比 其 他 策略 都 要 快 。realloc 和 分 组 (grouping) 中 使 用 的 


预 分 配 因子 k=1.2 
分 配 策略 内 存 消耗 时 间 (总 计 ) 时 间 (CPU) 
链表 (简单) 2312 MB 88 s 77 s 
两 让 索引 1168 MB 123 s 104 s 
realloc 1282 MB 82 s 71s 
链表 GMA) 1208 MB 71s 61 s 


也 许 你 会 很 惊讶 地 发 现 ， 位 置信 息 分 组 之 间 的 链接 也 比 单个 位 置 之 间 的 链接 要 快 
(CPU 时 间 分 别 为 61 秒 和 77 秒 ) 。 原 因 是 分 组 技术 使 用 了 松散 链表 结构 ， 这 不 但 减少 了 内 
部 碎片 ， 而 且 通 过 将 同一 个 词 项 的 位 置信 息 都 存储 在 一 起 ， 提 高 了 CPU 缓存 的 利用 率 。 在 
简单 链表 法 的 实现 中 ， 某 个 词 项 的 位 置信 息 都 是 随机 分 布 在 计算 机 内 存 的 各 个 位 置 中 ， 导 致 
将 该 词 项 的 位 置信 息 写 回 磁盘 前 执行 的 记录 收集 操作 引起 了 大 量 的 CPU 缓存 丢失 。 


45.2 ”基于 排序 的 索引 构建 法 


前 面 的 章节 已 经 证 明了 基于 哈 希 的 内 存 索 引 的 构建 算法 可 以 非常 高 效 。 但 是 ， 如 果 我 们 
要 索引 比 可 用 内 存 容 量 大 得 多 的 文档 集 ， 就 不 能 使 用 这 种 将 整个 索引 放 在 主 存 中 的 方法 了 ， 
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而 是 要 寻找 基于 磁盘 的 方法 了 。 本 节 介 绍 的 基于 排序 的 索引 法 就 是 本 章 要 介绍 的 两 种 基于 磁 
盘 的 索引 构建 方法 中 的 一 种 。 该 方法 能 用 于 索引 比 可 用 内 存 容 量 大 得 多 的 文档 集 。 
回顾 本 节 开 始 部 分 ， 我 们 将 倒 排 索引 的 建立 过 程 视 为 是 将 代表 文档 集 的 词 项 位 置 序列 元 
组 重 排 的 过 程 一 一 将 它 从 文档 序 转换 为 索引 序 。 这 是 一 个 排序 过 程 ， 而 基于 排序 的 索引 构建 
正 是 用 最 简单 的 方式 实现 了 这 个 转换 。 从 输入 文件 读 人 词 条 后 ， 基 于 排序 的 索引 以 〈ter- 
mID，position) 的 格式 对 其 进行 记录 ， 并 立即 写 人 磁盘 。 最 终 将 得 到 一 系列 按 第 二 项 〈 出 现 
位 置 ) 进行 排序 的 记录 。 在 所 有 输入 数据 都 被 处 理 完毕 后 ， 索 引 器 按 第 一 项 对 写 人 磁盘 的 记 
录 进 行 排序 ， 而 不 是 按 第 二 项 。 最 终 得 到 按 第 一 项 〈 词 项 编号 ) 排序 的 新 记录 序列 。 这 样 ， 
用 内 存 词 典 中 记录 的 信息 ， 就 很 容易 将 这 个 新 序列 转换 为 一 个 适当 的 倒 排 索引 了 。 
图 4-10 的 伪 码 所 示 的 方法 易于 实现 ， 适 用 于 构建 比 可 用 内 存 容量 大 得 多 的 索引 。 它 的 
主要 局 限 是 可 用 磁盘 空间 的 大 小 。 
| | buildIndex.sortBased (inputTokenizer) = 
rile input Tokenizer. hasNezt() do 
T — inputTokenizer. getNext(} 
从 7 中 取出 词典 记录 ; 如 有 必要 ， 可 创建 新 记录 


1 
2 
3 
4 
5 termiID «— unique term ID of T 
6 
7 
8 








将 记录 Rposition 三 (termID, position) 5 AW 
position — position + 1 
tokenCount — position 
9 按 第 一 项 排序 Po ... RiokenCount—1; 打 乱 按 第 二 项 排 的 序 
10 在 Ro... Riokencount-1 上 执行 一 次 顺序 扫描 , 创建 最 终 的 索引 
|u return 








图 4-10 ”基于 排序 的 索引 的 建立 算法 ， 该 算法 为 文档 集 构建 一 个 模式 独立 的 索 
引 。 算 法 主要 的 难点 在 于 如 何 高 效 的 排序 磁盘 上 的 记录 


排序 磁盘 上 的 记录 可 能 有 点 棘手 。 在 很 多 实现 方法 中 ， 都 是 一 次 将 某 一 数量 n 的 记录 
加 载 到 内 存 中 ， 其 中 n 由 记录 大 小 和 可 用 内 存 空间 容量 决定 。 这 % 个 记录 在 内 存 中 排序 后 


写 回 磁盘 。 重 复 这 一 过 程 直到 我 们 有 [teencouxtt 1 个 有 序 记录 块 。 这 些 块 可 通过 多 路 合并 


操作 (multiway merge operation) 〈 同 时 处 理 所 有 的 数据 块 ) 或 级 联合 并 操作 (cascaded 
merge operation) 〈 如 一 次 合并 两 个 数据 块 ) 进行 合并 ， 最 后 得 到 一 个 包含 tokenCount 条 
记录 的 有 序 序列 。 图 411 展示 了 一 个 建立 基于 排序 的 索引 的 过 程 ， 该 过 程 使 用 级 联合 并 操 
作 ， 一 次 合并 两 个 元 组 序列 ， 得 到 一 个 最 终 元 组 序列 。 用 一 些 辅助 的 数据 结构 ， 可 将 位 置信 
息 中 的 词 项 编号 〈termID) 删除 ， 这 个 最 终 的 序列 可 视 为 文档 集 的 索引 。 

尽管 可 以 索引 比 可 用 内 存 容量 大 得 多 的 文档 集 ， 但 是 基于 排序 的 索引 方法 有 两 个 明显 的 
局 限 性 : 

。 它 需要 大 量 的 磁盘 空间 ， 通 常 每 个 输入 词 条 需要 至 少 8 字 节 的 磁盘 空间 (4 字 节 词 项 
编号 十 4 字 节 出 现 位 置 )， 对 于 更 大 的 文档 集 或 达到 12 字 节 (4 十 8)。 例如 当 索 引 
GOV2 文档 集 时 ， 用 于 存储 临时 文件 的 磁盘 空间 至 少 为 12X 44K 10? 字 节 (= 
492 GB) 一 一 比 未 经 压缩 的 文档 集 本 身 (426 GB) BEK. 

。 为 了 能 正确 排序 第 一 步 中 生成 的 〈termID，docID) 对 ， 索 引 过 程 需要 维护 全 局 的 词 
项 编号 (termID)， 这 只 能 通过 一 部 完整 的 内 存 词典 来 实现 。 我们 前 面 讨论 过 ， 
GOV2 的 完整 内 存 词典 需要 耗费 超过 1 GB 的 内 存 ， 因 此 在 配置 较 低 的 计算 机 上 就 难 
以 实现 文档 集 索 引 了 。 
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| 输入 文本 | 
<SPEECH> <SPEECH> 元 组 格式 
<SPEAKER>GREGORY</SPEAKER> <SPEAKER>ABRAHAM</SPEAKER> 
<LINE>Do you quarrel, sir?</LINE> <LINE>Quarrel sir! no, sir.</LINE> termiD 
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图 4-11 使 用 全 局 词 项 编号 建立 基于 排序 的 索引 。 内 存 足 够 大 ， 可 以 一 次 处 理 6 个 〈 词 项 编号 ， 出 
现 位 置 ) 元 组 。(1) 一 (2) : 在 内 存 中 排序 大 小 小 于 等 于 6 的 数据 块 ， 每 次 处 理 一 个 数据 
块 。(2) 一 (3 和 (3) 一 (4) :将 有 序数 据 块 合并 成 更 大 的 数据 块 


有 很 多 方法 可 以 解决 上 述 问题 ， 但 是 最 终 它 们 都 是 一 致 的， 即将 基于 排序 的 索引 方法 转化 为 
某 种 与 基于 合并 的 索引 构建 法 (merge-based index construction) 类 似 的 方法 。 


4.5.3 ”基于 合并 的 索引 构建 法 


对 比 起 基于 排序 的 索引 构建 法 ， 本 节 介 绍 的 基于 合并 的 方法 不 需要 维护 任何 全 局 数据 结 
构 。 特 别 是 不 需要 维护 全 局 唯一 的 词 项 编号 。 因 此 需要 索引 的 文档 集 的 大 小 ， 仅 受 限 于 存储 
临时 数据 和 最 终 索 引 的 可 用 磁盘 空间 容量 ， 而 不 受 索 引 过 程 中 可 用 内 存 容量 的 限制 。 

基于 合并 的 索引 法 是 4. 5. 1 节 中 介绍 的 常 驻 内 存 索 引 构 建 法 的 一 个 一 般 化 形式 ， 利 用 哈 
希 表 查 找 建立 倒 排列 表 。 实 际 上 ， 如 果 文 档 集 比较 小 ， 为 其 建立 的 索引 足以 放 和 人 内存， 那么 
基于 合并 的 索引 法 和 常 驻 内 存 索引 构建 法 是 非常 相似 的 。 如 果 文 档 集 太 大 使 得 对 应 的 索引 无 
法 完全 存 人 内 存 中 ， 那 么 索引 过 程 将 为 文档 集 进 行动 态 划分 (dynamic partitioning) 。 即 一 
开始 先 建立 一 个 常 驻 内 存 索 引 ， 一 旦 内 存 不 足 ( 或 达到 了 预定 义 的 内 存 使 用 阅 值 )， 就 将 常 
驻 内 存 索引 数据 传输 到 磁盘 上 ， 建 立 一 个 磁盘 的 倒 排 文档 ， 并 删 去 内 存 中 的 索引 ， 然 后 继续 
建立 索引 。 该 过 程 重复 执行 直到 索引 构建 完毕 。 图 4-12 展示 了 该 算法 。 

上 述 过 程 得 到 的 结果 是 一 个 倒 排 文档 集 ， 每 一 个 都 代表 了 整个 文档 集 的 某 一 部 分 。 每 个 
这 样 的 子 索引 都 被 称 为 是 一 个 索引 块 (index partition) 。 最 后 一 步 ， 将 所 有 这 些 索引 块 合 并 
成 为 最 终 索 引 ， 即 整个 文档 集 的 索引 。 索 引 块 〈 和 最 终 索引 ) 中 的 位 置信 息 列表 通常 以 压缩 
形式 存储 (参见 第 6 章 ) ， 这 样 就 可 以 使 磁盘 I/O 的 开销 较 少 。 

写 到 磁盘 上 的 索引 块 作 为 索引 过 程 中 的 中 间 输 出 彼此 是 完全 独立 的 。 例 如 ， 这 里 不 需要 
全 局 唯一 的 词 项 编号 ;甚至 不 需要 数字 形式 的 词 项 编号 。 每 个 词 项 就 是 它 的 编号 ;每 个 索引 
块 的 位 置信 息 列表 按 对 应 词 项 的 字母 顺序 进行 存储 ， 访 问 某 个 词 项 的 位 置信 息 列表 可 以 通过 
4.3 节 和 4.4 节 介绍 的 数据 结构 实现 。 由 于 使 用 了 字母 顺序 并 且 没 有 词 项 编号 ， 将 各 个 索引 
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块 合并 成 最 终 索 引 就 比较 容易 了 。 图 4-13 给 出 了 一 个 简单 实现 方式 的 伪 码 ， 即 重复 线性 探 
测 所 有 的 索引 块 。 如 果 索 引 块 的 数量 很 大 超过 10)， 那 么 算法 可 使 用 一 个 优先 队列 Const 
结构 ) 重组 索引 块 来 提高 效率 ， 即 根据 对 应 的 索引 块 中 下 一 词 项 来 进行 排序 。 这 样 就 不 必 进 
行 第 7 一 10 行 中 的 线性 扫 挠 了 。 























buildIndex_mergeBased (inputTokenizer, memoryLimit) = 
1 n0 // 初始 化 索引 块 数量 
2 position — 0 
3 memoryConsumption — 0 
4 while input Tokenizer.hasNezt() do 
5 T — input Tokenizer. getNext() 
6 从 了 中 取出 词典 记录 ; 如 有 必要 可 创建 新 记录 
7 ET 的 位 置信 息 列表 后 扩展 新 的 位 置信 息 position 
8 position +- position + 1 
9 memoryConsumption — memoryConsumption + 1 
16 if memoryConsumption > memoryLimit then 
11 createIndexPartition() 
12 if memoryConsumption > 0 then 
13 createIndexPartition() 
14 Soe alo... n-i, 得 到 最 终 的 磁盘 索引 Z6nal 
15 return 

createIndexPartition () = 
16 ”创建 空 磁盘 倒 排 文件 了 
17 ” 按 字 典 序 排序 内 存 中 的 词典 记录 
18 for each 词 典 中 的 词 项 7 do 





19 将 下 的 位 置信 息 列表 添加 到 柬 中 
20 删除 所 有 内 存 位 置信 息 列表 

21 。 重 轩 内存 词典 

22 memoryConsumption — 0 

23 nen+l 

return 


图 4-12 ”基于 合并 的 索引 算法 ， 生 成 一 系列 独立 的 子 索引 〈 索 引 块 )。 通 过 
多 路 合并 操作 将 索引 块 合并 起 来 得 到 最 终 索引 





mergeIndexPartitions ((Io,...,In—1)) = 
创建 空 倒 排 文 件 Iina 
for k — 0 to n — 1 do 
FFARR FEN 
currentInaer — 0 
while currentindez + nil do 
currentInder — nil 
for k — 0 to n — 1 do 
if 大 中 仍 有 词 项 then 
if (currentIndex = nil) V (Ip.currentTerm < currentTerm) then 
currentinder — Ip 
currentTerm — I,.currentTerm 
if currentinder # nil then 
Inmat.addPostings( current Term, currentIndez. getPostings( current Term)) 
currentindex.advance ToNezt Term() 
delete Ip... Tn_1 
return 


图 4-13 将 编号 为 J…1,-! 的 n 个 索引 块 合并 成 最 终 索 引 Tsww， 这 是 建立 基于 
合并 的 索引 构建 方法 的 最 后 一 个 步骤 


表 4-7 给 出 了 基于 合并 的 索引 构建 方法 的 总 体 性 能 ， 包 括 了 各 部 分 的 性 能 。 为 GOV2 Æ 
立 一 个 模式 独立 的 索引 总 共 需 要 大 约 4 小时。 最 后 的 合并 操作 ， 即 将 % 个 索引 块 合并 为 一 


1 
2 
3 
4 
5 
6 
7 
8 
9 
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个 最 终 索 引 的 时 间 耗 费 ， 大 约 是 生成 这 些 索引 块 的 时 间 的 30% . 


R47 ”用 基于 合并 的 索引 构建 方法 对 不 同 的 文档 集 建立 模式 独立 索引 ， 内 存 索引 使 用 512 MB 的 
内 存 。 索 引 阶 段 的 词典 通过 有 2 个 哈 希 槽 的 哈 希 表 和 前 移 启 发 式 方法 实现 。 可 扩展 内 存 
位 置信 息 列表 采用 松散 链表 的 形式 ， 即 链接 的 是 位 置信 息 组 ， 预 分 配 因子 k=1.2 








读 入 、 解 析 & 索引 合并 总 时 间 
莎士比亚 文集 ls Os ls 
TREC45 71s lls 82 s 
GOV2 (10%) 20 min 4 min 24 min 
GOV2 (25%) 51 min 11 min 62 min 
GOV2 (50%) 102 min 25 min 127 min 
GOV2 (100%) 205 min 58 min 263 min 


该 算法 是 可 扩展 的 ， 在 我 们 的 计算 机 中 ， 索 引 整 个 GOV2 文档 集 (426 GB) 的 时 间 大 约 是 
索引 一 个 10% 的 子 文档 集 (43 GB) 的 114%. 

但 是 ， 这 个 算法 的 可 扩展 性 还 是 存在 一 些 局 限 。 在 建立 索引 揭 最 后 合并 索引 块 时 ， 每 个 
索引 块 至 少 有 一 个 大 小 合适 的 预 读 缓冲 区 是 非常 重要 的 ， 大 约 几 百 KB。 这 有 助 于 将 磁盘 寻 
道 〈 在 不 同 的 索引 块 间 跳 转 ) 的 次 数 保持 在 一 个 较 低 的 水 平 。 自 然 的 ， 每 个 索引 块 预 读 缓 冲 
区 的 大 小 不 能 超过 M/n, HE M 是 可 用 内 存 容量 ，?% 是 索引 块 的 数量 。 因 此 ， 如 果 ?% 变 
得 太 大 ， 那 么 合并 操作 将 变 得 很 慢 。 

减少 可 用 内 存 容量 会 对 索引 过 程 造 成 两 方面 的 影响 :第 一 ， 这 样 就 减少 了 预 读 缓冲 区 的 
可 用 内 存 容量 。 第 二 ， 增 加 了 索引 块 的 数量 。 因 此 ,减少 50% 的 内 存 容量 将 导致 每 个 索引 
块 的 预 读 缓冲 区 的 大 小 减少 了 75%。 例 如 ， 把 内 存 限 制 为 M=128 MB， 就 导致 需要 合并 
3032 个 索引 块 ， 每 个 仅 有 43 KB 的 预 读 缓冲 区 。 图 4-14 画 出 了 这 个 影响 的 总 体 趋势 。 由 图 
可 知 ， 最 后 合并 操作 的 性 能 高 度 依赖 于 索引 过 程 中 可 用 的 内 存 容量 。 当 可 用 内 存 容量 分 别 为 
128 MB 和 1024 MB 时 ， 前 者 最 后 合并 操作 的 时 间 大 约 是 后 者 的 6 倍 。 


10 


> --#-- 总 时 间 
8 N -"@- - EXKI HA h i 
` --@ - 最 终 合 并 操作 的 时 间 


索引 时 间 ( 小 时 } 





内 存 限制 (MB) 


图 4-14 可 用 内 存 大 小 对 基于 合并 的 索引 的 性 能 造成 的 影响 数据 集 ，GOV2)。 第 一 阶段 
(生成 索引 块 ) 的 性 能 在 很 大 程度 上 独立 于 可 用 内 存 容量 。 如 果 可 用 内 存 容量 很 
少 ， 那 么 第 二 阶段 〈 合 并 索引 块 ) 的 性 能 就 会 受到 严重 的 影响 


有 两 种 对 策 可 以 克服 这 个 问题 。 第 一 种 是 用 级 联合 并 法 代替 多 路 合并 法 。 例 如 ， 需 要 合 
并 1024 个 索引 块 ， 首 先 执行 32 路 合并 操作 ， 每 次 合并 32 个 索引 块 ， 然 后 再 将 得 到 的 32 个 
新 的 索引 块 合并 为 最 终 索 引 。 图 4-11 给 出 了 一 般 化 过 程 ， 每 次 级 联合 并 2 个 索引 块 。 第 二 
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种 方法 是 通过 压缩 减少 位 置信 息 列 表 所 需 的 内 存 空 间 。 当 需要 往 内 存 索引 加 入 一 条 位 置信 息 
时 ， 即 时 进行 压缩 ， 使 得 在 超过 内 存 容 量 之 前 索引 过 程 可 以 尽 可 能 地 处 理 更 多 的 位 置信 息 ， 
从 而 减少 需要 在 磁盘 上 创建 的 索引 块 的 数量 。 

总 的 来 说 ， 尽 管 最 后 的 合并 操作 存在 一 些 问 题 ， 基 于 合并 的 索引 构建 法 还 是 让 我 们 得 以 
为 大 文档 集 建 立 倒 排 文档 ， 即 使 在 一 台 PC 上 也 能 实现 这 个 过 程 。 它 优 于 基于 排序 的 方法 的 
地 方 是 不 需要 全 局 唯一 的 词 项 编号 。 因 此 当 词 典 词 项 数量 非常 多 的 时 候 ， 这 种 方法 就 特别 有 
吸引 力 了 。 比 起 基于 排序 的 方法 ， 这 种 索引 构建 算法 的 另 一 个 优点 是 它 产生 的 内 存 索 引 能 立 
即 用 于 查询 。 这 个 性 质 是 搜索 引擎 处 理 动态 文档 集 时 所 必 备 的 〈 参 见 第 7 章 ) 。 
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在 我 们 讨论 索引 的 数据 结构 时 ， 把 范围 都 限制 在 倒 排 索引 。 然 而 ， 倒 排 索引 只 是 搜索 引 
擎 所 用 索引 结构 的 其 中 一 种 。 

前 向 索引 (forward index) (或 直接 索引 (direct index)) 将 文档 编号 映射 到 文档 中 词 项 
的 列表 中 去 。 前 向 索引 补充 了 倒 排 索引 。 它 们 通常 不 用 于 实际 的 搜索 过 程 ， 而 是 用 于 在 查询 
阶段 获得 文档 词 项 分 布 的 信息 ， 这 也 是 查询 扩展 技术 如 伪 相 关 反 馈 (参见 第 8 章 ) 和 产生 结 
果 片 段 (snippet〉 所 需要 的 。 对 比 起 直接 从 原始 文本 中 提取 出 这 些 信息 ， 前 向 索引 的 好 处 
是 文本 已 经 被 分 好 词 了 ， 并 且 相 关 数 据 的 提取 会 更 有 效 。 

签名 档 (signature file) (Faloutsos 和 Christodoulakis, 1984) 是 另 一 种 文档 编号 索引 。 
与 布 隆 过 滤器 (Bloom filter) (Bloom, 1970) 相似 ， 签 名 档 可 用 于 获取 一 个 可 能 (may) 
包含 给 定 词 项 的 文档 列表 。 为 了 找 出 词 项 是 否 真 的 出 现在 一 个 文档 中 ， 文 档 本 身 〈 或 前 向 索 
引 ) 需要 被 考虑 进去 。 通 过 改变 签名 档 的 一 些 参 数 ， 就 有 可 能 实现 以 时 间 换 速度 : 使 用 小 索 
引 会 使 误 检 出 现 的 可 能 性 更 大 ， 反 之 亦 然 。 

(GSH (suffix tree) (Weiner, 1973) 和 后 缀 数组 (suffix array) (Manber 和 Myers, 
1990) 可 用 于 找 出 给 定 n-gram 序列 在 指定 文档 集中 所 有 出 现 的 位 置 。 它 既 可 以 用 于 索引 字 
符 n-gram〔 还 没 对 输入 文本 进行 分 词 处 理 )， 也 可 以 用 于 单词 n-gram (经 过 分 词 处 理 后 ) 。 
后 缀 树 对 词组 搜索 和 正则 表达 式 搜索 是 一 个 很 有 吸引 力 的 数据 结构 ， 但 通常 比 倒 排 索引 要 
大 ， 并 且 存 储 在 磁盘 而 不 是 内 存 的 时 候 搜索 操作 的 性 能 比较 低 。 
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本 章 介绍 了 建立 和 访问 倒 排 索引 的 主要 算法 和 数据 结构 。 本 章 的 要 点 有 : 

。 倒 排 索引 通常 所 需 的 空间 较 大 ， 而 不 能 全 部 放 和 内存 中 。 因 此 ， 通 常 的 做 法 是 只 把 
相对 于 整个 索引 而 言 较 小 的 词典 加 载 到 内 存 中 ， 而 把 位 置信 息 列表 存储 在 磁盘 上 
(4.2 节 )。 

对 于 较 大 的 文档 集 ， 词 典 也 可 能 因 过 大 而 不 能 全 部 放 入 内 存 。 通 过 把 部 分 词典 保存 
于 内 存 中 ， 同 时 将 词典 记录 和 保存 在 磁盘 上 的 位 置信 息 列表 交错 处 理 ， 并 将 索引 中 
的 所 有 位 置信 息 列表 都 按 字 母 顺序 存储 ， 就 可 以 大 大 减少 词典 对 内 存 空 间 的 需求 
(4.4 4). 

如 果 搜 索引 擎 要 支持 前 缀 查询 ， 那 应 该 使 用 基于 排序 的 词典 ， 同 时 位 置信 息 列 表 应 
该 以 字母 顺序 存储 到 磁盘 上 (4.2 节 和 4.3 节 )。 

对 于 磁盘 上 的 位 置信 息 列表 ， 使 用 含有 部 分 词 项 位 置信 息 的 单项 索引 可 以 有 效 地 实 
现 对 位 置信 息 列表 的 半 随 机 访问 〈4. 3 节 )。 
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。 采用 带 前 移 启 发 式 方 法 的 基于 哈 希 的 内 存 词典 和 分 组 链表 技术 实现 的 可 扩展 内 存 位 
置信 息 列表 ， 可 实现 高 效 的 内 存 索引 构建 方法 〈4. 5.1 节 )。 

如 果 索 引 过 程 中 的 可 用 内 存 容 量 不 足以 允许 完 全 在 内 存 中 建立 索引 ， 那 么 内 存 索 引 
构建 方法 可 扩展 为 基于 合并 的 方法 ， 即 基于 可 用 内 存 容 量 动态 地 将 文档 集 划 分 为 多 
个 子 文档 集 。 每 个 子 文档 集 的 索引 使 用 内 存 索引 方法 构建 。 整 个 文档 集 的 索引 建立 
好 之 后 ， 采 用 多 路 合并 或 级 联合 并 技术 ， 就 能 把 各 个 子 文档 集 的 索引 合并 起 来 
(4.5.3 49). 

基于 合并 的 索引 构建 法 的 性 能 与 文档 集 的 大 小 线性 相关 。 然 而 ， 如 果 分 配给 子 索引 
预 读 缓冲 区 的 内 存 空间 太 少 ， 那 该 方法 最 后 的 合并 操作 的 性 能 将 受到 严重 的 影响 
(4.5.3 节 )。 


48 ”延伸 阅读 


Witten 等 人 (1999, 第 3 章 和 第 5 BE) 以 及 Zobel 和 Moffat (2006) 为 我 们 进一步 理解 
倒 排 索引 的 结构 和 性 能 提供 了 一 个 很 好 的 切 人 人 点。 如果 要 更 深入 地 了 和 解 索 引 的 数据 结构 ， 可 
以 参见 Google 的 两 位 工程 师 Brin 和 Page 在 1998 年 发 表 的 一 些 论文 。 

Moffat 和 Zobel (1996) 讨论 了 倒 排 文档 在 查询 阶段 的 性 能 问题 ， 包 括 4. 3 节 中 介绍 的 
用 于 随机 列表 访问 的 单项 索引 结构 CARI. Raof Ross (1999, 2000) 证 明了 随机 访 
问 所 引起 的 问题 不 仅 出 现在 磁盘 索引 中 也 会 出 现在 内 存 倒 排 文档 中 。 并 且 他 们 指出 二 分 查找 
并 不 是 (not) 实现 随机 访问 内 存 位 置信 息 列 表 的 最 好 方法 。 

Heinz 和 Zobel (2003) 讨论 了 单 遍 合并 的 索引 构建 方法 及 其 对 比 起 基于 排序 的 方法 的 
优势 。 他 们 还 评价 了 各 种 内 存 词典 实现 方法 的 效率 ， 包 括 4. 5. 1 节 中 描述 的 前 移 启 发 式 方法 
(Zobel 等 人 ，2001) ， 并 提出 了 一 个 新 的 词典 数据 结构 ， 爆 炸 树 (burst tree) (Heinz FA, 
2002) ， 可 获得 接近 哈 希 表 的 单词 项 查找 性 能 一 一 但 不 像 哈 希 表 一 一 它 能 实现 前 级 查询 。 

Biittcher 和 Clarke (2005) 研究 了 可 扩展 内 存 位 置信 息 列 表 〈 如 松散 链表 ) 的 内 存 管理 
策略 ， 最 近 的 研究 成 果 可 以 参见 Luk 和 Lam (2007). 

如 果 以 简单 的 方法 实现 基于 合并 的 索引 构建 法 〈 和 基于 排序 的 索引 构建 法 的 变种 ) 的 最 
后 一 个 步骤 ， 总 的 空间 需求 是 最 终 索 引 的 两 倍 。Moffat 和 Bell (1995) 提出 了 一 个 聪明 的 方 
法 ， 在 原 位 上 实现 合并 ， 即 通过 重用 输入 索引 块 中 已 处 理 部 分 的 磁盘 空间 来 存储 最 终 索 引 。 

Faloutsos 和 Christodoulakis (1984) 对 签名 档 给 出 了 一 个 很 好 的 概述 ， 其 中 包括 一 些 
理论 性 质 。Zobel A (1998) 讨论 了 在 进行 文本 搜索 时 ， 倒 排 文档 和 签名 档 的 相对 性 能 。 
他 们 的 结论 是 ， 对 于 很 多 应 用 ， 倒 排 文档 是 个 更 好 的 选择 。 但 Carterette 和 Can (2005) 指 
出 ， 在 某 些 情况 下 ， 签 名 档 几 平 与 倒 排 文档 一 样 快 。 

后 缀 树 第 一 次 出 现在 Weiner (1973) 的 一 篇 论文 中 ， 和 名 字 为 位 置 树 (position tree), 
Ukkonen (1995) 为 后 缀 树 提出 了 线性 时 间 的 构建 算法 。Clark 和 Munro (1996) 讨论 了 一 
个 变种 的 后 缀 树 结构 。 当 数据 存储 于 磁盘 上 而 不 是 内 存 中 时 ， 该 结构 能 提供 高 效 的 搜索 
操作 。 


4.9 练习 

练习 4.1 在 4.3 节 中 我 们 介绍 了 单项 索引 (per-term index) 的 概念 ， 即 提高 索引 随机 访问 性 能 的 一 
种 方法 。 假 设 某 些 词 项 的 位 置信 息 列表 由 6400 万 个 位 置信 息 组 成 ， 每 条 位 置信 息 占 4 字 节 。 为 了 能 在 这 个 
词 项 位 置信 息 列表 上 执行 随机 访问 ， 搜 索引 擎 需要 两 个 读 磁 盘 操 作 ， 
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D 将 单项 索引 《〈 同 步 点 列表 ) 加 载 到 内 存 中 。 

2) 将 位 置信 息 块 B 加 载 到 内 存 中 ， 其 中 B 由 同步 指针 列表 上 的 二 分 查找 确定 。 

我 们 将 每 个 同步 指针 中 包含 的 位 置信 息 个 数 称 为 单项 索引 的 粒度 〈granularity) 。 对 于 以 上 访问 模式 ， 
最 理想 的 粒度 是 多 大 〈 即 能 将 磁盘 I/O 减 到 最 小 的 那个 粒度 )? 从 磁盘 中 读 出 的 总 字 节 数 为 多 少 ? 

练习 4.2 在 4.3 节 中 介绍 的 单项 索引 是 出 于 典型 磁盘 驱动 的 操作 特性 〈 尤 其 是 高 代价 的 磁盘 寻 道 ) 。 
然而 ， 也 可 以 用 同样 地 方法 提高 内 存 索引 的 随机 访问 性 能 。 为 了 证 实 这 一 说 法 ， 请 为 内 存 位 置信 息 列 表 设 
计 两 个 不 同 的 数据 结构 ， 并 分 别 实现 next 访问 函数 〈 参 见 第 2 章 )。 第 一 个 数据 结构 将 位 置信 息 存储 在 一 
个 简单 的 32 位 整 型 数组 中 。 它 的 next 函数 通过 在 数组 中 进行 二 分 查找 实现 。 在 第 二 个 数据 结构 中 ， 使 用 
一 个 辅助 数组 为 位 置信 息 列表 中 的 每 64 个 位 置信 息 保存 一 个 副本 。next 函数 首先 在 辅助 数组 中 进行 二 分 查 
找 ， 然 后 顺序 扫描 (sequential scan) 位置 信息 列表 中 的 64 条 候选 记录 。 分 别 度量 两 种 实现 的 单词 项 查找 
平均 延 时 ， 其 中 位 置信 息 列表 中 有 n (n=2", 25, 2%, 2%) 个 位 置信 息 。 描 述 并 分 析 你 的 发 现 。 

练习 4. 3 ”建立 倒 排 索引 本 质 上 是 一 个 排序 过 程 。 一 般 排序 算法 的 最 低 复 杂 度 是 QC(nlog(n))。 然 而 ， 
4.5. 3 节 中 基于 合并 的 索引 构建 法 所 需 的 时 间 与 文档 集 的 大 小 线性 相关 〈 参 见 表 47)。 请 至 少 找 出 两 处 隐 
含 对 数 因子 的 地 方 。 

练习 4.4 图 4-12 所 示 的 算法 中 ， 内 存 上 限 就 是 存储 在 内 存 中 的 位 置信 息 数目 。 这 个 内 存 上 限 的 定义 
是 基于 什么 样 的 假设 给 出 的 ? 请 给 出 一 个 文档 集 或 一 个 实际 应 用 ， 使 得 该 假设 不 成 立 。 

练习 4.5 在 4.5.1 节 中 ,我们 讨论 了 各 种 词典 数据 结构 的 性 能 特性 ， 指 出 基于 哈 希 表 的 实现 〈 在 索 
引 构 建 阶段 ) 可 对 单词 项 查询 提供 更 高 的 性 能 ， 而 基于 排序 的 实现 则 更 适用 于 多 词 项 查询 〈 前 缀 查询 中 需 
要 用 到 )。 设 计 并 实现 一 种 数据 结构 ， 使 得 该 数据 结构 在 单词 项 查询 中 优 于 基于 排序 的 词典 结构 ， 并 且 在 前 
缀 查询 中 优 于 基于 哈 希 表 的 实现 方法 。 

练习 4.6 (WARS) ”设计 并 实现 一 种 索引 构建 方法 ， 为 给 定 的 文档 集 建立 一 个 模式 独立 索引 。 所 建 
立 的 索引 是 一 个 驻 留 磁盘 的 索引 。 该 索引 不 需要 用 到 4. 3 节 及 4.4 节 中 讨论 到 的 任何 优化 处 理 。 

。 实现 4. 5. 1 节 中 描述 的 内 存 索引 构建 法 。 当 为 一 般 英 文 文本 建立 索引 时 ， 你 可 以 为 包含 词 条 数 约 为 


MCR Ra, Hk M 为 可 用 内 存 的 大 小 ， 以 字 节 为 单位 。 


。 扩展 你 的 实现 ， 使 得 文档 集 大 小 不 再 受 索 引 过 程 中 可 用 内 存 容 量 的 限制 。 这 就 可 能 需要 你 建立 一 个 
模型 ， 将 两 个 或 多 个 驻 留 磁盘 索引 合并 成 一 个 索引 。 
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查询 处 理 


在 第 4 章 中 ， 我 们 阐述 了 构成 倒 排 索 引 的 基本 数据 结构 。 现 在 我 们 讨论 如 何在 这 些 数 据 
结构 上 实现 高 效 的 搜索 操作 。 对 于 不 同 的 搜索 引擎 ， 搜 索 过 程 的 细节 与 实现 都 不 同 。 然 而 ， 
无 论 我 们 将 要 讨论 的 是 单 用 户 桌面 搜索 系统 还 是 大 规模 的 Web 搜索 引擎 ， 基 本 思想 和 算法 
通常 是 相同 的 。 

最 基本 的 检索 模型 与 我 们 在 2.2 节 讨论 过 的 布尔 模型 非常 相似 。 在 布尔 模型 中 ， 每 一 个 
词 项 代表 了 包含 它 的 文档 集 。 文 档 集 可 用 标准 的 操作 符 AND (RAL. OR Gf) 以 及 
NOT GE) 进行 合并 ， 本 章 中 探讨 布尔 模型 最 常见 的 两 个 蔡 代 模型 。 第 一 个 是 排名 检索 
(5.1 节 )， 搜 索引 擎 可 以 根据 与 查询 的 相关 性 对 搜索 结果 进行 排名 。 第 二 个 是 轻 量 级 结构 
(5.2 节 )， 它 是 在 子 文 档 层 次 上 对 布尔 模型 的 一 种 自然 扩展 。 它 不 将 搜索 过 程 局 限 在 整个 文 
档 中 ， 而 是 允许 用 户 搜索 满足 类 布尔 约束 的 任何 文本 段落 《如 ， 请 给 出 在 10 个 单词 范围 内 
包含 “apothecary” 和 “drugs” 的 所 有 段落 ) 。 

尽管 偶尔 会 担 及 有 效 性 指标 ， 如 平均 查 准 率 均值 (MAP) ， 但 本 章 主 要 关注 搜索 过 程 的 
效率 而 不 是 搜索 结果 的 质量 。 各 种 检索 方法 的 质量 问题 会 在 第 8 章 和 第 9 章 中 涉及 。 


5.1 排名 检索 的 查询 处 理 


正如 2.2 节 指 出 的 一 样 ， 布 尔 检索 和 排名 检索 不 是 互 斥 的 ， 而 是 互补 的 : 搜索 引擎 根据 
对 用 户 查 询 的 布尔 解析 来 确定 匹配 的 文档 集 。 例 如 ， 给 定 查 询 (REC 主题 433): 


Q = (“greek”, “philosophy”, “stoicism”) (5-1) 
搜索 引擎 将 检索 出 所 有 匹配 合 取 (conjunctive) 布尔 查询 
“greek” AND “philosophy” AND “stoicism” (5-2) 
或 析 取 (disjunctive) 布尔 查询 
“greek” OR “philosophy” OR “stoicism” (5-3) 


的 所 有 文档 ， 然 后 将 这 些 文档 根据 与 Q WOAMUTERETTHES . PUN, RAME AR 
(2-12)), 

传统 的 信息 检索 系统 通常 采用 析 取 的 方法 ， 然 而 Web 搜索 引擎 偏向 采用 合 取 查询 方式 。 
合 取 检索 模型 比 析 取 模 型 的 查询 过 程 更 快 ， 因 为 需要 评分 和 排名 的 文档 更 少 。 然 而 ， 这 个 性 
能 优势 是 以 低 查 全 率 为 代价 的 ， 如 果 一 个 相关 文档 仅 包含 3 个 查询 词 项 中 的 两 个 ， 它 不 会 补 
作为 结果 返回 给 用 户 。 这 对 于 上 述 查 询 Q 来 说 尤其 明显 。 在 TREC 过 50 万 的 文档 集中 ， 有 
7834 个 文档 匹配 查询 的 析 取 式 ， 但 只 有 1 个 文档 满足 合 取 式 。 碰 巧 ， 这 个 文档 其 至 还 是 不 
相关 的 〈 它 的 内 容 是 关于 一 个 墨西哥 演员 和 他 最 新 的 电影 ) 。 

合 取 方法 对 于 上 述 查 询 失 败 的 原因 解释 如 下 : 对 于 熟悉 Stoicism 哲学 概念 的 作者 感觉 
没 必要 说 明 它 是 一 个 哲学 流派 或 它 起 源 于 希腊 ; 对 他 们 来 说 ， 这 是 显而易见 的 常识 。 用 户 也 
许 想 通过 提供 更 多 的 关键 词 “philosophy” 和 “greek” 来 帮助 搜索 引擎， 但 事实 上 这 些 词 项 
反而 使 搜索 结果 变 粮 。 对 于 长 查询 来 说 ， 这 种 效果 更 明显 ， 因 为 任何 一 个 不 恰当 (或 拼写 错 
误 ) 的 词 项 都 会 导致 搜索 结果 变 差 。 

我 们 认为 为 查询 增加 相关 词 项 不 会 使 搜索 结果 变 坏 。 在 接 下 来 的 内 容 中 ， 都 假设 搜索 引 
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擎 使 用 析 取 方法 ， 检 索 至 少 包含 一 个 查询 词 项 的 文档 ， 并 用 排名 函数 来 决定 哪些 文档 更 匹配 
用 户 的 查询 。 当 然 ， 合 取 模 型 通常 还 是 会 比 析 取 模型 快 ， 这 是 豪 无 疑问 的 。 因 此 本 节 中 涉及 
的 很 多 优化 都 有 一 个 共同 的 目的 : 尽量 缩小 给 定 查询 的 AND 解析 式 和 OR 解析 式 之 间 的 性 
能 差距 。 

Okapi BM25 

为 了 便于 讨论 ， 假 定 搜索 引擎 基于 文档 与 查询 的 相关 性 使 用 Okapi BM25 iF 4) eR CS 
式 〈8-48)) 来 对 文档 进行 排名 。 为 方便 起 见 ， 我 们 还 是 将 这 个 排名 公式 重复 一 下 : 


N 
ScorepM25(d, d) = >》 log (Š) - TF pmas(t, d) (5-4) 


téa 


_ hakt) 7 
TFemzs(ż, d) = feat ki: ((1— b) +b- (la/lavg)) > 


公式 中 有 两 个 自由 参数 : ki CME: 太一 1.2) ， 用 于 调节 TF 组 件 的 饱和 速度 ; b GRA 
值 : b=0.75), 用 于 控制 文档 长 度 归 一 化 的 程度 。 所 有 其 他 变量 都 使 用 标准 语义 ， 如 本 书 
开头 给 出 的 “符号 ” 表 。 
如 果 对 BM25 公式 的 内 在 理论 感 兴趣 ， 可 在 第 8 章 中 找到 这 个 公式 的 推导 以 及 对 它 的 深 
人 讨论 。 本 节 的 内 容 不 需要 对 BM25 有 很 深入 的 理解 。 然 而 ， 我 们 重点 关注 参数 ki WHE 
用 ， 因 为 它 与 排名 检索 中 各 种 查询 优化 紧密 相关 。j; 限制 了 单个 查询 词 项 的 得 分 贡献 : 
plim TFeM2slt, d)=kı +1 (5-6) 


因为 k 的 默认 值 为 1. 2， 因 此 任何 给 定 查询 词 项 的 TF 分 数值 不 会 超过 2. 2。 由 于 这 个 
非常 严格 的 上 界 ， 使 得 包含 两 个 不 同 查询 词 项 的 文档 会 比 仅 包含 一 个 查询 词 项 的 文档 排名 靠 
前 ， 就 算 后 面 这 个 文档 包含 同一 个 词 项 很 多 次 也 是 如 此 。 

给 定 查询 =h, to, Ni, = No ， 我 们 为 两 个 与 平均 长 度 等 长 的 文档 dı 和 d: 评分 
CBD la, =la, 二 Law)。 进 一 步 假设 di 包含 了 ti 和 t: 各 一 次 ， 而 dz 包含 10 次 t AAA 
t,。 我 们 有 (ki 二 1. 2): 


N 1-(ki+1)\_ N ) 

Scorepmas(g, di) ~ log (©) : (2. ith ) =~ 2 - log (a (5-7) 
N 10- (kı +1) ~ N 

ScoreBM25 (q, dz) [es log Gr) * “Tork, © 1.95 log Ga (5-8) 


本 节 的 后 面部 分 ，k; 所 提供 的 上 界 可 用 于 裁剪 掉 一 些 位 置信 息 ， 我 们 事先 就 可 以 知道 这 些 
位 置信 息 所 对 应 的 文档 不 可 能 出 现在 搜索 结果 中 靠 前 的 位 置 。 


5.1.1 document-at-a-time 查询 处 理 














排名 检索 中 查询 处 理 最 常见 的 rankBM25_Document At ATime ((t1,...,tn), k) = | 
形式 被 称 为 document-at-a-time Ff 2 me aff 站 
法 。 这 种 方法 枚 举 所 有 匹配 的 文档 ， 3 while d =o go a 
逐个 为 它们 计算 得 分 。 最 后 所 有 文 5 resultslm] score — SP. 1 log(N/Nt;) TFBM25 (ti, d) 
k 个 结果 (k 由 用 户 或 应 用 指定 ) 8 按 score 降 序 排 列 results[0..(m 一 1)] 
将 被 返回 给 用 户 。 9 return results[0..(k — 1)] | 








图 5-1 给 出 了 BM25 的 docu- 图 5-1 BM25 的 document-at-a-time 查询 处 理 
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ment-at-a-time 算法 。 这 个 算法 一 一 除 得 分 计算 外 一 一 与 图 2-9 中 的 rankCosine 算法 是 一 样 的 。 
算法 的 整体 时 间 复 杂 度 为 ， 

O(m- n+ m- log(m)) (5-9) 
HF, n 是 查询 词 项 的 个 数 ，m 是 匹配 的 文档 个 数 〈 至 少 包含 一 个 查询 词 项 ) msn 对 应 
算法 第 3 行 开 始 的 循环 。m， log(m) 对 应 第 8 行 对 搜索 结果 进行 排序 。 

有 时 候 很 难 直 接 运用 公式 〈5-9) ， 因 为 在 运行 算法 和 枚 举 所 有 的 搜索 结果 之 前 m 的 值 
是 不 知道 的 。m 取决 于 查询 词 项 在 文档 中 共同 出 现 的 频率 ， 其 取 值 在 N,/n~N, 之 间 ， 其 
P, NSN 十 Ni 十 … 十 N， 是 所 有 查询 词 项 出 现 位 置 的 和 。 最 坏 情 况 下 ， 每 个 匹配 的 文 
档 仅 包含 一 个 查询 词 项 。 则 图 5-1 算法 的 时 间 复 杂 度 为 ， 

O(N; : n + Na - log(Nq)) (5-10) 
实际 上 ， 大 部 分 匹配 文档 确实 只 包含 一 个 查询 词 项 。 例 如 ， 在 之 前 的 查询 例子 〈“greek”， 
“philosophy”, “stoicism2”》 中 ， 我 们 有 m=7835, N,=7921. AE., AA (5-10) 可 作为 
公式 (5-9) 很 好 的 一 个 近似 。 

图 5-1 中 基本 的 document-at-a-time 算法 的 低 效 率 主 要 有 两 个 原因 : 

。 不 管 词 项 是 否 出 现在 当前 文档 中 ， 第 5 行 和 第 7 行 的 计算 需要 为 所 有 n 个 查询 词 项 

都 迭代 一 遍 。 如 果 n 值 很 大 ， 这 就 成 为 一 个 问题 。 考 虑 这 样 的 极端 情况 ， 有 10 个 查 
询 词 项 ， 每 个 匹配 文档 只 包含 了 一 个 查询 词 项 。 如 果 算 法 逐个 处 理 每 个 词 项 ， 那 么 
就 得 执行 10 次 。 . 

。 第 8 行 最 后 的 排序 步 又 在 结果 集 (results) 数组 中 对 所 有 文档 进行 排序 。 当 然 ， 如 
果 仅 对 前 & 个 结果 感 兴趣 ， 对 整个 数组 进行 排序 是 一 种 资源 的 浪费 ,8B Cm * log 
(mm)) 的 时 间 复 杂 度 看 起 来 并 没有 那么 糟糕 。 但 记 住 我 们 处 理 的 可 能 是 好 几 百 万 的 匹 
配 文档 ， 所 以 公式 (5-9) 中 的 m + logbm) 实 际 上 会 超过 对 应 的 得 分 计算 的 men. 

我 们 用 同样 地 方法 来 解决 这 两 个 问题 : 使 用 一 个 叫做 堆 Cheap) 的 数据 结构 。 如 果 你 已 
经 知道 堆 是 什么 ， 那 么 请 直接 跳 到 “使 用 堆 进 行 高 效 的 查询 处 理 ” 这 一 节 。 

1. 二 叉 堆 

堆 (更 确切 地 说 ， 最 小 二 叉 堆 (binary min-heap)) 是 一 个 满足 如 下 定义 的 二 叉 树 : 

D 空 的 二 叉 树 是 一 个 堆 。 

2) 满足 下 面条 件 的 非 空 二 叉 树 是 T ME: 

(a) 除了 最 底层 ，7 中 的 每 一 层 都 是 完全 填充 的 ( 满 的 ) 。 

(b) 耳 中 最 底层 从 左 往 右 顺序 进行 填充 。 

(c) 对 每 一 个 节点 v， 存 储 在 v 中 的 值 要 比 存储 在 它 的 任何 孩子 节点 中 的 值 小 。 

条 件 (a) Al (b) 组 合 在 一 起 的 性 质 ， 有 时 称 为 形态 特性 (shape property)。 由 于 具有 
这 一 形态 特性 ， 堆 不 仅 可 表示 为 树 还 可 表示 为 数组 。 树 的 根 节点 保存 在 数组 位 置 0， 节 点 人 
的 孩子 节点 分 别 保存 在 位 置 2i 十 1 和 2i 十 2 中 。 图 5-2a 给 出 了 集合 (1，2，3，4，5，6) 对 应 
的 堆 用 树 来 表示 的 结果 。 图 5-2b 给 出 了 等 价 的 数组 形式 。 

在 实际 实现 中 ， 一 般 会 优选 数组 形式 而 不 是 树 形式 ， 因 为 数组 形式 空间 效率 更 高 〈 不 需 
要 孩子 指针 ) ， 也 会 更 快 〈 更 好 的 数据 局 部 性 ) 。 在 数组 形式 中 ， 条 件 O 可 以 转化 为 ; 

Vi € {0,1,2,...,len—1}: 

(2i+12 len V Afi] < A[2i+1]) A (2i+2 > len v Ali] < A[2i+2]) 
Hh, len 是 数组 A 的 长 度 。 特 别 地 ， 每 一 个 有 序数 组 都 是 一 个 堆 〈 但 不 是 每 一 个 堆 都 是 一 


(5-11) 


第 5 章 查询 处 理 . 97 


个 有 序数 组 ) 。 
a) 树 形式 b 数组 形式 


EE 





a) b) 
图 5-2 集合 {1, 2, 3, 4, 5, 6) 对 应 的 堆 的 树 形式 和 等 价 的 数组 形式 

堆 支 持 很 多 有 趣 的 操作 。 在 这 里 我 们 感 兴趣 的 操作 叫做 REHEAP。 考 虑 图 5-2 中 的 堆 ， 
假如 现在 我 们 想 要 用 一 个 新 值 9 来 代替 根 节点 的 值 1， 并 且 仍 保持 堆 的 特性 。REHEAP 算 
法 将 1 替换 为 9， 然后 将 9 和 2 交换 ， 最 后 将 9 和 5 交互 ， 得 到 一 个 新 数组 (2, 3, 4, 5, 6, 
9>， 仍 然 保 持 堆 的 特性 。 更 一 般 的 ，REHEAP 用 一 棵 二 叉 树 来 保持 除 2 〈c) 外 的 所 有 其 他 
堆 的 性 质 ， 并 将 根 的 值 不 断 下 移 直 到 满足 堆 的 所 有 性 质 。 

这 个 算法 的 时 间 复 杂 度 是 多 少 ? 考虑 包含 n 个 节点 的 堆 7 。 因 为 每 个 堆 都 是 一 棵 平衡 二 又 
树 ， 了 的 每 个 叶子 高 度 都 为 [log (n) 或 [logs m)l]. Bk REHEAP 将 在 OUdog(Cn)) 步 内 结束 。 

2. 使 用 堆 进行 高 效 的 查询 处 理 

使 用 REHEAP 算法 可 克服 图 5-1 算法 的 限制 。 在 这 个 算法 的 改进 版 中 ， 我 们 使 用 到 两 
个 堆 : 一 个 用 来 管理 查询 词 项 ， 对 于 每 一 个 词 项 t， 跟 踪 记 录 下 一 个 包含 t 的 文档 ; 另 一 个 
用 于 维护 目前 找到 的 前 个 搜索 结果 。 

改进 后 的 算法 如 图 5-3 所 示 。 词 项 (term) 堆 包 含 查询 词 项 集合 ， 并 根据 对 应 词 项 出 现 
的 下 一 文档 nextDoc》 进行 了 排序 。 这 使 得 可 以 在 n 个 位 置信 息 列表 上 进行 一 个 高 效 的 多 
路 合并 操作 。 结 果 Ces aE AWRA k 个 搜索 结果 ， 并 按 它们 的 得 分 排序 。 特 
别 需 要 注意 到 结果 的 根 节点 (也 就 是 算法 中 采用 的 数组 形式 的 reswlts[0j) 并 不 包含 目前 找 
到 的 最 好 文档 ， 而 是 目前 第 个 最 好 的 文档 。 这 样 ， 当 我 们 找到 一 个 新 文档 的 得 分 比 旧 文 
档 高 时 ， 就 可 以 通过 替换 前 个 文档 中 得 分 最 低 的 那个 文档 (并 保持 满足 堆 的 性 质 〉 来 实 
现 维护 和 持续 更 新 前 个 结果 。 


rankBM25_DocumentAtATime_WithHeaps ((t:, 
‘for i — 1 to k do // 为 前 k 个 搜索 结果 创建 最 小 堆 


results{i].score — 0 
fori«ltondo // 为 n 个 查询 词 项 创建 最 小 堆 

terms|i].term — ty 

-  terms{i|.neztDoc — nextDoc(t;, 一 co) 

$e next Doc 升序 排列 ierms // 为 terms 建 立 堆 属 性 

while terms[0].nertDoc < 00 do 
d — terms(0].nextDoc 

9 score — 0 

10 while terms|0].neztDoc = d do 











natn), k) = 


加 本 









11 t — terms[0].term 

12 score +— score + log(N/N:) :TFBem2s(t, d) 
13 termsl0].neztDoc 二 nextDoc(t, d) 

14 reheap(terms) // 为 terms 重 建 堆 属 性 
15 if score > results[0].score then 

16 results[0|.docid — d 

17 results[0).score — score 

18 reheap(results) // 为 reswits 重 建 堆 属性 


19 ”从 results 中 ,删除 所 有 score=0 的 词 项 
20 scores PR FH results 


return results 


图 5-3 BM25 的 document-at-atime 查询 处 理 算法 ,使 用 二 又 堆 来 管理 词 项 集 和 前 个 文档 集 
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最 坏 情 况 下 ，document-at-a-time 算法 的 改进 版 本 的 时 间 复 杂 度 为 : 

O(N; : log(n) + Ne log(k)) (5-12) 
AH, NSN, 十 Ns 十 … 十 Ns, 是 所 有 词 项 位 置信 息 的 个 数 。 第 一 项 (CN,， log(n)) 对 应 在 
WWI (term) 堆 上 进行 的 REHEAP 操作 ， 每 次 插入 新 的 位 置信 息 时 重新 调整 堆 结 构 使 之 保 
持 堆 的 性 质 。 第 二 项 (N, + log (k) 对 应 在 结果 《result) 堆 上 进行 的 REHEAP 操作 ， 
每 次 在 前 k 个 结果 集中 插入 新 文档 时 重新 调整 堆 结构 使 之 保持 堆 的 性 质 。 

对 比 公 式 (5- 10)， 改 进 版 本 的 算法 有 显著 的 改善 ， 主 要 是 因为 将 最 后 的 排序 过 程 限制 
在 前 个 文档 而 不 是 所 有 匹配 文档 上 ， 因 此 获得 了 速度 上 的 提高 。 并 且 ， 尽 管 维护 前 有 个 
结果 集 在 最 坏 情况 下 的 复杂 度 是 GCN,， logC%k))， 但 在 实际 中 最 坏 情况 下 的 复杂 度 没什么 
As 该 算法 的 平均 情况 下 的 复杂 度 其 至 比 公 式 〈5-12) 中 的 还 要 好 ( 见 练习 5.1). 

3. 最 大 得 分 

尽管 图 5-3 的 算法 已 经 可 以 获得 比较 合理 的 查询 处 理性 能 ， 但 仍然 存在 改进 的 空间 。 回 
想 之 前 讨论 BM25 的 TF 得 分 贡献 不 会 超过 ki 十 1 二 2.2。 一 个 词 项 t 的 总 得 分 不 会 超过 
2. 2log《N/N1)。 这 个 上 限 称 为 该 词 项 的 最 大 得 分 (MaxScore)。 重 新 考虑 查询 








Q=<“greek” , “philosophy” “stoicism” > (5-13) 
查询 词 项 的 文档 频率 、IDF 权重 和 对 应 的 最 大 得 分 为 : 
词 项 N: log (N/N: ) 最 大 得 分 
“greek” 4504 6. 874 15. 123 
“philosophy” 3359 7. 297 16. 053 
“stoicism” 58 13. 153 28. 936 


假设 输入 查询 的 用 户 对 前 k=10 个 搜索 结果 感 兴趣 。 对 几 百 个 文档 进行 评分 后 ， 也 许 
会 碰 到 这 种 情况 ， 目 前 找到 的 前 10 个 最 好 的 结果 已 经 超过 了 词 项 “greek” 的 最 大 得 分 贡献 
的 限制 ， 即 
results[0].score > MaxScore( “greek” ) = 15.123 (5-14) 
当 这 种 情况 发 生 时 ， 我 们 知道 仅 包含 “greek” 但 不 包含 “philosophy” 和 “stoicism” 的 文 
档 是 不 可 能 进入 最 好 的 前 10 个 搜索 结果 中 的 。 因 此 就 不 需要 为 任何 仅 包含 “greek” 的 文档 
进行 评分 了 。 当 找到 包含 任 一 其 他 两 个 词 项 的 文档 时 ， 可 以 将 这 个 词 项 从 词 项 〈term) 堆 中 
移 除 并 查看 它 的 位 置信 息 。 
对 越 来 越 多 的 文档 评分 时 ， 可 能 有 时 会 碰 到 以 下 情况 ， 
results[0|.score > MaxScore( “greek” ) + MaxScore(“philosophy”) = 31.176 (5-15) 
这 时 ， 我 们 知道 一 个 仅 包含 词 项 “stoicism” 的 文档 是 有 可 能 进入 到 前 10 个 结果 中 的 ， 我 们 
将 “philosophy” 从 词 项 堆 中 移 除 ， 正 如 我 们 处 理 “greek” 一 样 。 
上 上 述 策略 称 为 MAXSCORE， 由 Turtle 和 Flood (1995) 提出 。MAXSCORE 能 保证 产 
生 的 前 个 结果 与 图 5-3 的 算法 产生 的 结果 一 样 ， 但 速度 会 快 很 多 ， 因 为 它 一 旦 事先 发 现 文 
档 不 可 能 成 为 前 & 个 结果 就 忽略 它们 。 
注意 到 ， 尽 管 MAXSCORE 从 堆 里 移 除 了 一 些 词 项 ， 但 它 仍 用 它们 来 进行 评分 。 这 通 
过 维护 两 个 数据 结构 来 实现 ， 一 个 用 来 保存 仍 在 堆 中 的 词 项 ， 另 一 个 用 来 保存 从 堆 中 移 除 的 
词 项 。 当 我 们 找到 一 个 文档 d 包含 仍 在 堆 中 的 词 项 时 ， 我们 迭代 地 从 堆 中 移 除 这 些 词 项 ， 
并 为 每 一 个 词 项 t 都 调用 nextDoc(t, dd 一 1) 来 确定 t 是 否 出 现在 中 。 如 果 是 ， 我 们 就 计 
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算 t 的 得 分 贡献 并 加 到 的 得 分 中 去 。 

表 5-1 列 出 了 TREC TB 2006 任务 中 的 10 000 个 查询 上 的 每 查询 平均 时 间 和 每 查询 
CPU 时 间 ， 可 与 GOV2 文档 集 上 的 磁盘 频率 索引 效果 相 比 Cl d, fia) 的 位 置信 息 )， 
每 查询 的 平均 时 间 和 CPU 时 间 。 与 图 5-3 中 的 算法 相 比 ，k 二 10 时 (这 是 许多 搜索 引擎 的 
默认 设置 )，MAXSCORE 将 每 查询 的 总 时 间 减 少 了 53 多 ，CPU 时 间 减 少 了 69% 。 因 为 平 
均 每 次 查询 中 搜索 引擎 需要 评分 的 文档 总 数 从 440 万 减少 到 28 万 。 注 意 到 ， 就 算 使 用 了 
MAXSCORE, 搜索 引擎 也 比 使 用 合 取 检索 模型 (布尔 AND) 多 评分 了 一 个 数量 级 的 文档 。 
然而 ， 从 总 体 性 能 来 看 ， 使 用 MAXSCORE 的 布尔 OR 与 布尔 AND 也 差 不 了 多 少 。 例 如 ， 
每 次 查询 的 平均 CPU 时 间 只 提高 了 50% : 从 93 ms 提高 到 了 62 ms, 


表 5-1 在 有 和 没有 最 大 得 分 的 情况 下 ， 每 查询 的 总 时 间 和 CPU 时 间 。 数 据 集 : 
TREC TB 2006 上 的 10 000 个 查询 。 可 与 GOV2 上 的 频率 索引 效果 相 比 














没有 最 大 得 分 有 最 大 得 分 
实际 时 间 CPU 得 分 文档 实际 时 间 CPU 得 分 文档 
OR, k=10 400 ms 304 ms 4.4+108 T 188 ms 93 ms 2.8 e 10° 
OR, k— 100 402 ms 306 ms 4.4 » 108 206 ms 110 ms 3.9% 10 
OR, k=1000 426 ms 329 ms 4,4 + 108 249 ms 152 ms 6.2 + 10° 
AND. k=10 160 ms 62 ms 2.8 + 10° n/a n/a n/a 

















5.1.2 term-at-a-time 查询 处 理 


作为 document-at-a-time 方法 的 一 个 替代 ， 也 有 一 些 搜索 引擎 用 term-at-a-time 方法 来 
处 理 查 询 。 搜 索引 擎 不 使 用 堆 来 合并 查询 词 项 的 位 置信 息 列 表 ， 而 是 顺序 地 检查 每 个 查询 词 
项 的 所 有 (或 部 分 ) 位 置信 息 。 它 维护 一 组 文档 得 分 累加 器 〈accumulator) 。 对 于 每 个 检查 
到 的 位 置信 息 ， 它 确定 对 应 的 累加 器 并 根据 该 位 置信 息 对 文档 的 得 分 贡献 来 更 新 累加 器 的 
值 。 所 有 的 查询 词 项 处 理 完 之 后 ， 累 加 器 就 包含 了 所 有 匹配 文档 的 最 后 得 分 ， 这 时 就 使 用 一 
个 堆 来 获得 前 k 个 搜索 结果 。 

term-at-a-time 方法 背后 的 一 个 动机 是 : 索引 存储 在 磁盘 上 ， 查询 词 项 的 位 置信 息 列 表 
也 太 大 以 至 于 不 能 全 部 放 人 内 存 。 在 这 样 的 情况 下 ，documentratartime 的 实现 需要 在 查询 
词 项 的 位 置信 息 列 表 之 间 跳 转 ， 每 次 跳 转 后 将 一 小 部 分 的 位 置信 息 读 人 内 存 ， 因 此 造成 了 由 
不 连续 的 磁盘 访问 ARETE) 而 形成 的 代价 。 对 于 短 查询 ， 包 含 2 一 3 个 词 项 ， 这 可 能 不 
是 一 个 问题 ， 可 以 通过 为 每 个 位 置信 息 列 表 分 配 一 个 大 小 合适 的 预 读 缓冲 区 来 降低 磁盘 寻 道 





磁盘 寻 道 就 是 一 个 问题 了 。term-at-a-time 实现 不 需要 任何 不 连续 的 磁盘 访问 模式 。 搜 索引 

擎 用 线性 方式 处 理 每 个 词 项 的 位 置信 息 列 表 ， 做 完 词 项 t; 后 就 移 到 词 项 t+i。 
因为 termrat-atime 方法 分 开 处 理 每 一 个 位 置信 息 列 表 ， 通 常 只 适用 于 以 下 形式 的 评分 函数 : 
score(q, d) = quality(d) 十 D score(t, d) (5-16) 

teg 

在 这 个 公式 中 ，quality(d) 是 可 选 的 ， 代 表 一 个 独立 于 查询 的 评分 组 件 ， 例 如 ，PageRank 
(公式 〈15-8)) 。 很 多 传统 的 评分 函数 ， 包 括 VSM (公式 (2-12))、BM25 (公式 (8-48)) 
以 及 LMD (公式 〈9-32))， 都 属于 RSA) 这 种 形式 。 它 们 有 时 也 被 称 为 词 氏 《bag- 
of-words) 方 法。 那些 考虑 文档 中 查询 词 项 邻近 度 的 评分 函数 ， 包 括 词组 查询 ， 不 适用 公 
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st (5-16)。 理 论 上 ， 它 们 仍然 可 以 在 term-at-a-time 查询 处 理 框架 中 实现 。 然 而 ， 除 了 文 
档 得 分 ， 搜 索引 擎 维护 的 单个 文档 累加 器 还 需要 保存 一 些 额 外 信息 〈 例 如 ， 词 项 位 置 )， 这 
会 显著 增加 它们 的 大 小 。 

图 5-4 给 出 了 BM25 一 个 可 能 的 term-at-atime 查询 处 理 算 法 。 图 中 ， 累 加 器 保存 在 数 
组 ace 中 。 对 于 每 一 个 词 项 t;， 按 照 t; 的 位 置信 息 列 表 来 顺序 遍历 这 个 数组 ， 创 建 一 个 新 
的 数组 acc' 保 存 更 新 之 后 的 累加 器 。 该 算法 在 最 坏 的 情况 下 的 时 间 复 杂 度 为 : 


9 (Eon i) + Ng: toto) = (Ng -n + Ng log(k)) (5-17) 


HP, NSN, 十 Ns 十 … 十 Ni,，Ns 是 所 有 查询 词 项 位 置信 息 的 总 数 。 当 N, =N,/n 
Aix HERA. 


rankBM25 ermAtATime ((t1,.0.,tn), k) = 
N, 的 升序 排列 Mi ntn) 
acc — {}, acc’ — {} [RERNE Rn 
accl0j.docid 一 œ // 列表 尾 标 
for i — 1 to n do 
inPos— 0 // acc 的 当前 位 置 
outPos +- 0 // acc 的 当前 位 置 
for each t: 位 置信 息 列 表 中 的 文档 4& do 








orn ow Pp wN » 


while acclinPos] < ddo // 从 acc 复 制 累 加 器 到 acc 


9 acc’ [outPos++] — acclinPos ++] 

10 acc’ [outPos].docid — d 

11 acc'[outPosl.score — log(N/Ne,) - TF amos (ti, d) 

12 if acc[inPos|.docid=dthen // 词 项 与 累加 器 吻合 

13 acc’ [outPos].store — acc’ |outPos].score + acc[inPos++].score 
14 d — nextDoc(t;, acc’ [outPos]) 

15 outPos — outPos+1 

16 while acclinPos| < oo do // 从 acc 复 制 剩 下 的 累加 器 到 acc'/ 
17 acc'[outPos++] — acc[inPos++] 

18 acc [outPos].docid — oo // 列表 尾 标记 

19 swap acc and acc’ 


20 return acc 中 的 前 k 个 项 // 用 堆 来 选 出 前 大 个 结果 


Æ 5-4 BM25 的 term-at-a-time 查询 处 理 。 文 档 得 分 存储 在 累加 器 中 。 根 据 当 前 
词 项 的 位 置信 息 列 表 来 顺序 遍历 累加 器 数组 








通过 比较 公式 (5-17) 和 公式 (5-12)， 我 们 可 以 看 到 term-at-a-time 算法 ， 至 少 是 图 5- 
4 的 这 种 形式 ， 实 际 上 会 比 document-at-a-time 算法 稍 慢 一 些 (N, + n (REN, + log(n)), 
因为 它 需 要 为 每 个 查询 词 项 t; 遍历 整个 累加 器 。 理 论 上 ， 用 一 个 哈 希 表 替 换 掉 数组 ace, 
就 能 使 每 个 累加 器 的 更 新 在 0(1) 时 间 内 完成 ， 这 样 就 能 解决 上 述 瓶 天。 这 样 整体 的 复杂 度 
RLANOCN, +N, ° log(k))=OCN, * log(k)). 然而 实际 上 ， 出 于 两 个 原因 数组 实现 比 哈 希 
实现 要 好 。 第 一 ， 数 组 的 缓存 效率 是 很 高 的 ， 而 哈 希 表 由 于 是 非 顺 序 访问 模式 ， 有 可 能 会 导 
致 大 量 的 CPU 缓存 丢失 。 第 二 ， 也 是 更 重要 的 一 点 ,现实 中 实现 term-at-atime 算法 通常 
不 需要 保存 所 有 的 累加 器 ， 而 是 采用 一 个 称 为 累加 器 裁剪 (accumulator pruning) 的 策略 。 

累加 器 裁剪 

如 前 所 述 ，term-at-a-time 查询 处 理 背 后 的 一 个 动机 是 查询 词 项 的 位 置信 息 列表 太 大 而 
不 能 全 部 放 人 和 人 内存。 当然 ， 这 意味 着 累加 器 集合 acc 也 会 太 大 而 放 不 进 内 存 。 因 此 ， 图 5- 4 
的 算法 就 不 适用 了 。 为 了 克服 这 种 前 后 矛盾 ， 我 们 改写 这 个 算法 ， 使 用 一 个 固定 的 内 存 容 量 
来 保存 累加 器 集合 。 也 就 是 ， 为 可 能 创建 的 累加 器 个 数 设置 一 个 上 限 Amao 

两 种 典型 的 累加 器 裁剪 策略 是 QUIT 和 CONTINUE, H Moffat 和 Zobel (1996) 提 
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出 。 在 QUIT 策略 中 ， 搜 索引 敬一 旦 处 理 完 当 前 的 查询 词 项 立即 检验 | ace | SS i HEFT ASE. 
如 果 成 立 ， 查 询 处 理 过 程 立刻 停止 ， 当 前 的 累加 器 集 就 表示 最 后 的 搜索 结果 。 如 果 使 用 CON- 
TINUE 策略 ， 搜 索引 擎 继续 处 理 位 置信 息 列表 并 更 新 已 有 的 累加 器 ， 但 不 再 创建 新 的 累加 器 。 

遗憾 的 是 ， 因 为 一 个 词 项 的 位 置信 息 列表 有 可 能 包含 超过 gam 条 记录 ， 无 论 是 QUIT 
还 是 CONTITUE 实际 上 都 无 法 执行 一 个 硬 限制 ， 对 于 较 小 的 aww， 实 际 上 执行 的 限制 要 高 得 
多 。 这 里 讨论 的 累加 器 裁剪 基于 Lester 等 人 最 近 的 工作 (2005), Lester 的 算法 能 保证 创建 的 累加 
器 数目 在 wm 的 一 个 常数 倍 范围 内 。 在 这 里 讨论 的 变形 算法 中 ， 保 证 累加 器 限制 不 被 超过 。 

与 document-at-a-time 中 的 MAXSCORE 策略 类 似 ， 累 加 器 裁剪 的 基本 思想 是 : 我 们 不 
关心 匹配 文档 全 集 ， 而 只 关心 前 上 个 ， 且 较 小 。 然 而 ,与 MAXSCORE 不 同 的 是 ， 累 加 
髓 裁剪 策略 不 保证 返回 与 穷 举 算法 一 样 的 结果 集 。 只 产生 一 个 近似 ; 这 个 近似 的 质量 取决 于 
使 用 的 裁剪 策略 及 wx 的 值 。 

在 图 5-4 的 算法 中 ， 查 询 词 项 按 出 现 频率 多 少 进行 处 理 ， 从 最 不 频繁 的 到 最 频繁 的 。 这 
对 于 不 裁剪 的 term-at-a-time 查询 处 理 来 说 通常 是 有 利 的 ， 因 为 需要 从 ace 中 复制 到 ace’' 的 
累加 器 更 少 ， 如 果 使 用 了 累加 器 裁剪 这 就 更 关键 了 。 主 要 基于 以 下 观察 : 如 果 只 使 用 有 限 个 
累加 器 ， 应 尽量 将 其 用 在 最 有 可 能 是 前 & 个 的 文档 中 。 同 等 条 件 下 ， 如 果 查 询 词 项 t 比 t' 拥 
有 更 大 的 权重 ， 那 么 包含 t 的 文档 很 有 可 能 就 比 包含 的 文档 更 像 是 会 在 前 个 结果 中 。 在 
BM25 中 (或 其 他 基于 IDF 评分 公式 的 文档 集中 ) ， 这 意味 着 越 不 频繁 的 词 项 〈 位 置信 息 列 
RRA) 应 该 越 先 处 理 。 

为 了 定义 一 个 具体 的 裁剪 策略 ， 我 们 应 该 制定 一 条 规则 来 确定 是 否 应 为 一 个 给 定 的 位 置 
信息 分 配 一 个 累加 器 。 假 设 处 理 完 前 i 一 1 个 查询 词 项 后 ， 搜 索引 人 擎 共有 dane TAME, 
然后 继续 处 理 +;。 那 么 ， 有 三 种 可 能 的 情况 : 

D Qarn + Np, 委 wmx。 这 种 情况 中 ， 仍 有 足够 未 用 的 累加 器 可 分 配给 t; 的 位 置信 息 ， 
不 需要 进行 裁剪 。 

2) wu 一 dmx。 这 种 情况 中 ， 已 经 达到 累加 器 的 上 限 。 不 会 为 ti 的 位 置信 息 创建 任 
何 新 的 累加 器 。 

3) Moarn Lamar L Aann Na 。 这 种 情况 中 ， 没 有 足够 的 累加 器 配额 为 t; 的 位 置信 息 
创建 新 的 累加 器 了 ， 需 要 裁剪 。 
情况 1 和 2 容易 理解 。 对 于 情况 3， 一 个 可 能 的 〈 也 是 最 简单 的 ) 裁剪 策略 是 : 只 为 前 
Qmax 一 Weument 个 位 置信 息 创建 新 的 累加 器 ， 这 些 位 置 对 应 的 文档 目前 还 没有 累加 器 ， 其 余 的 
就 忽略 掉 。 这 种 方法 的 问题 在 于 会 偏向 文档 集中 靠 前 的 文档 。 这 是 不 恰当 的 ， 因 为 没有 任何 
证 据 表明 这 些 文档 就 与 给 定 查 询 更 相关 〈 除 非 文档 已 按 某 种 独立 于 查询 的 质量 指标 排 好 序 
T. 4i PageRank). 

理想 情况 下 ， 我 们 定义 一 个 阔 值 9 使 得 t; 的 位 置信 息 列表 中 恰好 Ona A curen MAL EAA 
息 上 的 得 分 贡献 超过 93。 可 以 为 得 分 超过 8 的 位 置信 息 创建 累加 器 ， 但 得 分 低 的 位 置信 息 就 
不 创建 累加 器 了 。 从 字面 上 理解 ， 这 个 方法 是 一 个 两 遍 查 询 处 理 策略 : 第 一 遍 ， 为 所 有 已 评 
分 的 点 的 位 置信 息 计 算得 分 贡献 ， 然 后 排序 并 确定 阐 值 39。 第 二 遍 ， 重 新 计算 上 的 位 置信 息 
的 得 分 ， 并 与 阀 值 比较 。 如 果 t 的 位 置信 息 很 长 ， 这 个 方法 的 计算 代价 还 是 很 高 的 。 我 们 
使 用 下 面 两 步 来 解决 这 个 问题 ， 

1) 采用 一 个 稍微 不 同 的 阔 值 gm 来 代替 原始 闪 值 9?， 可 以 省 掉 为 所 有 t 的 位 置信 息 评 

分 的 必要 。 新 的 阐 值 将 直接 与 每 个 位 置 的 TF 值 进行 比较 ， 而 不 是 与 得 分 贡献 比较 ， 
从 而 减少 整体 的 计算 代价 。 


102 .第 二 部 分 R 引 


2) 用 9 的 一 个 近似 值 来 代替 实际 值 可 以 避免 对 t; 的 位 置信 息 的 第 二 遍 扫描 。 这 个 近 
似 值 在 线 计算 并 根据 已 经 扫描 过 的 位 置信 息 的 TF 分 布 定期 更 新 。 

改 后 的 算法 如 图 5-5 所 示 。 除 了 查询 词 项 和 用 来 指定 待 返回 的 文档 个 数 之 外 ， 这 个 算 
法 还 有 两 个 参数 ， 累 加 器 上 限 ww 和 37 近似 值 的 更 新 间隔 %。 每 当 过 到 具有 给 定 TF 值 的 
位 置信 息 并 且 还 未 有 对 应 累加 器 的 时 候 ， 算 法 用 数组 tfStats 来 记录 这 些 位 置信 息 的 总 个 
数 。 用 这 些 统计 信息 对 剩余 的 位 置信 息 进 行 推理 ， 可 以 预测 对 于 给 定 的 TF 值 我 们 还 需要 多 
少 个 位 置信 息 ， 从 而 可 计算 gm 的 一 个 估计 。 这 个 计算 替代 了 算法 的 第 31 一 32 行 。 














rankBM25_TermAtATimeWithPruning ((t1,...,tn), K, Gamas, u) 三 
1 按 Nz 升序 排 引 《ti,…, tn) 
2 acc — {}, acc {} // 初始 化 两 个 空 累 加 器 集合 
3 acc[0].docid — co // 列表 尾 标记 
4 for i = 1 ton do 
5 quotaLeft — amaz 一 length(acc) // WTHR MEME 
6 if Ni, < quotaLeft then // 情况 1: 不 需要 裁剪 
了 do everything as in Figure 5.4 
8 else if quotaLeft = O then // 情况 2: 累加 器 用 尽 了 
9 for j = 1 to length(acc) do 
10 acc|j].score — ace[j].score + log(N/Nz,) - TF ames (ti, ace[j].docid) 
11 else // 情况 3: 有 剩余 的 累加 器 ， 需 要 裁剪 
12 tfStats|j] —0 Yj // 初始 化 裁剪 所 需 的 TF 统 计 值 
13 Ore — 1 // 为 新 的 累加 器 初始 化 TF 痢 值 
14 postingsSeen — 0 // 从 ti 的 位 置信 息 列表 中 得 到 的 位 置信 息 数 
15 inPos+— 0 // acc 的 当前 位 置 
16 outPos 一 0 // acc' 的 当前 位 置 
17 for each t: 位 置信 息 列表 中 的 文档 d do 
18 while acc[inPos| < ddo // 从 acc 复 制 累加 器 到 acc’ 
19 acc'[outPos++] — acc[inPos ++] 
20 if acc[inPos|.docid = d then // 词 项 与 累加 器 吻合 
21 acc'[outPosl.docid — d 
22 acc’ [outPos++|.score — acc[inPos++].score + log(N/N:z,) «TF amas (ts, d) 
23 else if quotaLeft > 0 then 
24 if fea > Orr then // ftua BUT MA; 创建 一 个 新 的 累加 器 
25 acc’ [outPos|.docid — d 
26 acc’ [outPos++].score — log(N/N:,) - TF amas (ti, d) 
27 quotaLeft — quotaLeft — 1 
28 tfStats[ ft, a] — tfStats[f:, a] +1 
29 postingsSeen 二 postingsSeen + 1 
30 if (postingsSeen mod u = 0) then // 基于 tStats RHR OTF 
31 q — (Ni, — postingsSeen) / postingsSeen 
32 Orr ~ argmin, {z EN | $31 (tfStats[j] - q) > quotaLeft} 
33 如 图 5-4， 从 acc SERF HR M138 Bl acc’ 
34 swap acc and acc’ 
35 return the top k items of acc // 用 堆 来 选 出 前 天 个 结果 


图 5-5 使 用 累加 器 裁 前 策略 的 BM25 上 的 term-at-a-time 查询 处 理 。 输 入 参数 : 查询 
词 项 thee, tes 返回 的 文档 个 数 k; 累加 器 上 限 wx; BAES u 


更 新 闻 隔 参数 u 用 来 限制 定期 重 计 算 37 的 计算 开销 。 通 过 我 们 的 实验 ，% 二 128 在 近 
似 精 确 度 与 计算 开销 之 间 达 到 了 一 个 很 好 的 平衡 。Lester 等 人 〈2005) 建议 用 指数 级 增长 的 
间隔 来 取代 固定 的 更 新 间隔 ， 主 要 是 这 样 一 个 事实 ， 随 着 算法 的 进行 ， 对 优化 阔 值 gr 的 近 
似 会 越 来 越 准确 ， 因 此 需要 更 正 的 次 数 会 变 少 。 

考虑 到 第 32 行 阐 值 计算 的 效率 ， 值 得 指出 的 是 没有 必要 为 tfStats 数组 中 每 个 可 能 的 
TF 值 都 保存 一 个 记录 。 大 多 数 fw,a 值 都 很 小 (小 于 4 或 5)， 为 了 避免 维护 一 个 有 很 多 0 值 
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的 tfStats 数组 ， 将 较 大 的 值 合 在 一 起 比较 有 用 。 例 如 ， 将 算法 第 28 行 改 为 : 
tfStats[min{15, fi,,a}] — tfStats[min{15, fr,a}]+1 
这 样 对 ?mr 值 没有 什么 影响 ， 但 在 第 32 行 重 计算 Om RIE KT 
图 5-6 展示 了 使 用 图 5-5 累加 器 裁剪 算法 的 检索 有 效 性 以 及 查询 处 理性 能 。 有 效 性 评价 
TE TREC TB 2004 和 2005 的 99 个 特定 主题 上 产生 的 短 查 询 上 进行 ， 检 索 前 二 10 000 个 文 
档 。 查 询 处 理性 能 评价 在 TREC TB 2006 的 10 000 个 有 效 主题 上 进行 ， 为 每 个 主题 检索 前 
k=10 个 文档 。 


a) 检索 有 效 性 b) 性 能 (毫秒 每 查询 ) 





103 104 10° 10° 10° 104 10° 10° 
累加 器 限制 (Qamax) 累加 器 限制 Gmax) 
图 5-6 使 用 累加 器 裁剪 的 term-at-a-time 查询 处 理 的 性 能 以 及 检索 有 效 性 。 数 
据 集 : 来 自 TREC TB 2006 的 10 000 个 查询 ， 可 与 GOV2 上 的 频率 索 
引 效 果 相 比 


即使 对 于 较 小 的 amx 值 ， 检 索 有 效 性 也 相当 稳定 。 平 均 查 准 率 均值 CMAP) 从 Ox ® 
10° 才 开 始 下 跌 。 前 10 个 文档 上 的 查 准 率 (P@10) 只 有 当 过 度 裁剪 时 〈amx<104) 才 开始 
下 降 。 算 法 的 性 能 ， 用 每 次 查询 执行 时 间 ( 秒 ) 来 衡量 ， 与 〈 使 用 了 MAXSCORE 的 ) doc- 
ument-at-a-time 算法 性 能 相当 。 对 于 am 一 105 ， 两 个 算法 的 执行 时 间 差 不 多 ， 有 效 性 水 平 
也 在 同一 水 平 。 对 于 更 大 的 ws 值 ， 由 于 为 每 个 查询 词 项 遍历 整个 累加 器 数组 导致 的 开销 ， 
term-at-a-time 方法 就 比 document-at-a-time 要 差 了 。 

有 趣 的 是 ， 对 于 过 度 裁剪 〈aw< 妇 104) term-at-a-time 算法 实际 上 也 比 布尔 AND 方法 
要 快 (比较 图 5-6 与 表 5-1)。 这 也 不 完全 出 乎 意料 。 根 据 表 5-1， 如 果 搜 索引 擎 采用 合 取 查 
询 式 (Boolean AND) ， 那 么 平均 每 次 查询 它 得 为 28 000 个 匹配 文档 评分 。 因 此 ， 在 某 些 条 
件 下 ， 合 取 方 法 事实 上 比 使 用 了 累加 器 裁剪 的 析 取 方法 低 效 。 当 然 ， 这 种 比较 不 完全 公平 ， 
因为 合 取 查 询 评价 也 可 使 用 累加 器 裁剪 〈 人 参见 练习 5.2). 


5.1.3 预计 算得 分 贡献 


现在 已 经 很 显然 为 最 终 文档 计算 得 分 ， 例 如 ， 根 据 BM25 式 子 (公式 (5-5))， 是 搜索 
引擎 查询 处 理 过 程 中 的 主要 瓶颈 。 无 论 是 MAXSCORE 还 是 栋 加 器 裁剪 都 通过 将 得 分 计算 
限制 在 最 有 可 能 是 前 个 搜索 结果 的 文档 上 来 获得 性 能 上 的 提高 。 

对 于 采用 词 袋 方式 的 评分 算法 〈 公 式 〈5-16)) ， 没 必要 在 查询 阶段 计算 查询 词 项 的 得 分 
贡献 。 相 反 ， 我 们 可 以 在 索引 构建 阶段 就 预计 算 每 个 位 置信 息 的 得 分 贡献 并 与 文档 编号 一 起 
存储 在 索引 中 ， 用 (docid score) 形式 代替 Cdocid, th) 形式 的 位 置信 息 。 预 计算 得 分 
贡献 可 显著 减少 查询 处 理 阶段 搜索 引擎 的 CPU 开销 。 当 然 ， 如 果 TF 值 被 预计 算 的 得 分 贡 
献 代 替 ， 那 么 索引 建立 之 后 就 不 太 可 能 对 评分 函数 进行 任何 的 修改 。 在 很 多 应 用 中 这 不 会 是 
个 问题 。 但 很 难 用 新 的 评分 函数 去 做 实验 了 。 

一 个 潜在 更 严重 的 问题 是 预计 算得 分 所 需 的 空间 。 为 了 减少 空间 需求 〈 和 使 用 磁盘 索引 
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时 的 磁盘 I/O 开销 )， 倒 排 索 引 通 常 以 压缩 形式 存储 。 至 于 是 如 何 对 索引 进行 压缩 的 在 这 里 
不 重要 〈 将 在 第 6 章 中 描述 ), 但 基本 的 想法 是 将 小 整数 值 用 更 少 的 位 Chit) 来 存储 。 例 
如 ， 倒 排 索引 中 大 部 分 的 TF 值 都 是 很 小 的 《小 于 4) 。 因 此 ， 它 们 很 大 程度 可 以 进行 压缩 ， 
索引 中 每 个 位 置信 息 仅 需 2 一 3 位 来 存储 。 另 一 方面 ， 预 计算 词 项 得 分 基本 上 无 法 进行 压缩 。 
如 果 词 项 得 分 用 32 位 浮 点 数 表 示 ， 在 索引 中 它们 将 需要 24~32 位 .© 

如 果 希 望 通过 预计 算 词 项 贡献 来 加 速 评分 过 程 ， 那 么 关键 是 将 可 能 的 评分 范围 离散 化 到 
一 组 预定 义 的 桶 中 。 定 义 B 是 为 每 个 得 分 贡献 预 留 的 位 数 〈 未 压缩 ) 。 一 个 可 能 的 离散 化 过 
程 为 : 





score 
score’ = | . ?| 


SCO7emax 
其 中 ，scorems* 是 评分 函数 允许 的 最 大 得 分 贡献 。 在 标准 的 BM25 下 ， 有 8corewsx = ky +1= 
2.2 (不 考虑 评分 公式 中 IDF 部 分 ) 。 

因为 离散 化 之 后 的 score (ize 2° 种 可 能 取 值 上 不 是 均匀 分 布 的 ， 因 此 可 以 对 它们 进行 
压缩 ， 例 如 使 用 霍 夫 曼 编码 COL 6. 2. 2 节 )， 使 得 每 个 得 分 贡献 可 以 使 用 少 于 B 位 的 存储 
空间 。 

图 5-7 描述 了 采用 预计 算得 分 贡献 的 document-at-a-time 算法 的 实验 结果 (每 个 查询 的 
检索 有 效 性 和 处 理 时 间 ) 。 可 以 看 出 ， 每 个 预计 算得 分 ， 至 少 〈 未 压缩 ) 采用 4 位 ， 所 获得 
的 检索 有 效 性 与 在 线 计 算 所 有 词 项 得 分 的 原 算 法 的 检索 有 效 性 是 差不多 的 。 同 时 ， 每 次 查询 
的 平均 时 间 还 从 188 ms 减少 到 148 ms (—21%). 

增加 每 个 得 分 贡献 的 位 数 会 使 搜索 引擎 变 慢 ， 采 用 了 预计 算得 分 的 改进 算法 比 原 算 法 在 
每 次 查询 上 需要 更 多 的 时 间 〈 例 如 ， 对 于 B=8, M 188 ms 提高 到 了 207 ms) 。 然 而 注意 
到 ， 变 慢 主要 是 因为 磁盘 IO 开销 的 增加 ， 每 次 查询 CPU 平均 时 间 还 是 保持 近似 常数 。 因 
上 此， 如果 索引 保存 在 内 存 而 不 是 磁盘 中 ， 就 不 会 有 这 样 的 现象 。 


(5-18) 


a) 检索 有 效 性 b) 性 能 (毫秒 每 查询 ) 
250 a 
>of: - Wall 时间 A 
200 了 -六 - CPURTI oo aoe 
a ° 





0 2 4 6 
每 个 词 项 贡献 的 位 (B) 每 个 词 项 贡献 的 位 (B) 


图 5-7 采用 了 预计 算 词 项 贡献 和 MAXSCORE 策略 的 document-at-a-time 查询 
评价 ， 检索 有 效 性 和 查询 处 理性 能 。 数 据 集 : 来 自 TREC TB 2006 的 
10 000 个 查询 ， 可 与 GOV2 上 的 频率 索引 效果 相 比 


5.1.4 影响 力 排序 
在 第 4 章 描述 的 倒 排 索引 数据 结构 中 ， 存 储 在 索引 中 的 位 置信 息 按 它们 出 现在 文档 中 的 


© 浮 点 数 算术 运算 的 IEEE 标准 将 32 位 浮 点 数 分 成 24 位 显著 位 和 8 位 指数 位 。 显 著 位 几乎 是 不 可 压缩 的 。 
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先后 顺序 进行 排序 。 这 样 组 织 位 置信 息 列表 的 好 处 是 索引 容易 建立 ， 并 和 且 查询 操作 (例如 合 
并 位 置信 息 列表 〉 也 能 相对 高 效 的 执行 。 然 而 ， 原 来 的 文档 序 不 一 定 是 对 给 定位 置信 息 列表 
中 的 位 置信 息 最 好 的 排序 方法 。 例 如 ， 对 使 用 了 累加 器 裁剪 的 term-at-a-time 算法 (图 5-5), 
还 得 使 用 一 些小 技巧 来 高 效 获得 t; 的 位 置信 息 列表 中 排名 较 前 的 位 置信 息 的 一 个 近似 。 如 
果 位 置信 息 已 经 按 它 们 的 得 分 贡献 排 好 序 了 ， 那 就 简单 得 多 了 ;只 需要 挑 出 列表 前 面 的 位 置 
信息 ， 忽 略 剩 下 的 就 行 。 

每 个 列表 中 的 位 置信 息 按 它们 对 应 的 得 分 贡献 排 好 序 的 索引 称 为 是 基于 影响 力 排序 
Cimpact-ordered) 的 索引 。 基 于 影响 力 排序 的 索引 通常 包含 预计 算得 分 而 不 包含 TF 值 ， 而 
位 置信 息 的 序 就 已 经 隐 含 了 某 个 评分 函数 。 

如 果 直 接 这 样 实现 基于 影响 力 排序 的 索引 ， 那 么 会 严重 影响 基本 索引 访问 函数 的 复杂 
BE. 例如， 第 2 章 的 next 方法 就 不 再 是 对 数 复杂 度 了 ， 而 是 线性 复杂 度 ! 为 了 避免 这 种 情 
况 ， 基 于 影响 力 排序 的 索引 中 的 位 置信 息 不 是 按 它 们 的 实际 得 分 贡献 排序 的 ， 而 是 -一 一 与 之 
前 的 做 法 一 样 一 一 根据 一 个 量化 的 影响 力 值 排序 。 与 前 面 一 样 ， 我 们 将 影响 力 值 分 组 到 2? 
个 离散 的 桶 中 ， 这 里 B 通常 取 值 为 3 一 5。 给 定 词 项 的 位 置信 息 列 表 中 的 位 置信 息 按 它们 离 
散 化 后 的 影响 力 值 进行 排序 。 但 在 每 个 桶 中 ， 还 是 和 第 4 章 标 准 的 索引 组 织 一 样 ， 位 置信 息 
按 它们 的 文档 编号 来 排序 。 

采用 这 种 混合 方法 ， 与 严格 的 文档 序 索引 相 比 ， 随 机 访问 操作 的 计算 开销 还 是 可 以 接受 
的 。 并 且 可 以 快速 访问 词 项 靠 前 的 位 置信 息 这 一 优势 特别 明显 ， 尤 其 是 在 term-at-a-time 查 
询 处 理 框架 下 。 


5.1.5 ”静态 索引 裁剪 


5.1. 2 节 的 累加 器 裁剪 技术 ， 无 论 是 不 是 基于 影响 力 排序 的 ， 都 通过 忽略 掉 大 部 分 的 查 
询 词 项 位 置信 息 而 获得 性 能 上 的 提高 。 例 如 ， 一 个 累加 器 上 限 ww。. 王 1000， 搜 索引 警 评 分 的 
文档 数 就 不 会 超过 1000 个 。 遗 憾 的 是 ， 就 算 大 部 分 的 位 置信 息 没有 为 评分 过 程 产 生 贡 献 ， 
也 不 得 不 将 它们 从 索引 中 读 出 来 并 进行 解压 缩 ， 以 使 得 搜索 引擎 可 以 访问 到 那些 确实 产生 页 
献 的 “有 趣 的 ”位 置信 息 。 

如 果 希 望 尽 可 能 地 所 高 搜索 引擎 的 查询 处 理性 能 ， 我 们 可 以 预测 一 一 在 索引 阶段 一 一 哪 
些 位 置信 息 在 查询 处 理 阶 段 是 有 可 能 被 用 到 的 ， 哪 些 不 会 。 基 于 这 个 预测 ， 可 将 在 搜索 过 程 
中 不 会 起 重要 作用 的 位 置信 息 从 索引 中 移 除 。 这 个 策略 被 称 为 静态 索引 裁剪 〈static index 
pruning) 。 由 于 索引 中 的 位 置信 息 列表 变 得 更 短 了 ， 因 此 性 能 得 到 显著 提高 。 ° 

静态 索引 裁剪 有 几 个 很 明显 的 局 限 性 。 首 先 ， 既 然 是 在 一 个 裁剪 后 的 索引 中 处 理 查询 ， 
对 给 定 查询 就 不 能 保证 找到 的 一 定 是 得 分 靠 前 的 文档 。 其 次 ， 如 果 人 允许 用 户 定 义 结 构 化 查询 
约束 或 词组 查询 ， 这 个 策略 就 失效 了 。 例 如 ， 如 果 用 户 在 莎士比亚 文集 中 搜索 词组 “to be 
or not to be”， 索 引 裁剪 算法 会 认为 莎士比亚 的 文集 中 《Hamlet》 第 2 个 场景 第 3 幕 中 的 
“not” 是 不 重要 的 ， 导 致 用 户 找 不 到 她 要 寻找 的 那个 场景 。 然 而 ， 除 了 不 适合 一 些 特定 类 型 
的 查询 ， 索 引 裁 剪 已 被 证 明 在 传统 的 词 袋 查询 处 理 算 法 中 还 是 非常 成 功 的 。 

索引 裁剪 算法 通常 是 以 下 两 种 形式 之 一 ， 

。 基于 词 项 (term-centric) 的 索引 裁剪 : 它 单独 处 理 索引 中 的 每 一 个 词 项 。 根 据 一 些 
预定 义 的 标准 ， 裁 剪 算法 从 每 个 词 项 的 位 置信 息 列 表 中 挑选 出 最 重要 的 位 置信 息 ， 
然后 剪 掉 剩 下 的 。 

。 基于 文档 (document-centric) 的 裁剪 算法 : 与 上 面 不 同 ， 它 单独 检查 每 一 个 文档 。 
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给 定 一 个 文档 ， 算 法 预测 文档 中 哪些 查询 词 项 是 最 重要 的 和 最 具 代 表 性 的 。 如 果 认 
为 一 个 词 项 重要 ， 就 将 它 的 位 置信 息 加 入 到 索引 中 ; 否则 ， 就 丢掉 这 个 词 项 ， 就 像 
它 根 本 没 在 文档 中 出 现 过 一 样 。 
1. 基于 词 项 的 裁剪 
Carmel 等 人 《〈2001) 最 先 研 究 基 于 词 项 的 索引 裁剪 算法 。 他 们 在 论文 中 评价 了 若干 种 
”不 同 的 裁剪 算法 ， 但 这 些 算法 都 是 类 似 的 。 这 里 只 讨论 他 们 的 top-( 玉 ，s) 基 于 词 项 的 裁剪 
考虑 一 个 词 项 t， 对 应 的 位 置信 息 列表 上 L;， 和 一 个 包含 t 的 未 知 查询 9。 同 等 条 件 下 ， 
L: 中 给 定位 置信 息 P 是 查询 g 的 前 个 文档 的 概率 在 P 的 得 分 贡献 中 是 单调 的 。 基 于 词 项 
的 裁剪 算法 根据 选 好 的 评分 函数 ， 将 工 , 中 的 所 有 位 置信 息 根据 它们 的 《用 选 好 的 评分 函数 
计算 的 ) 得 分 贡献 进行 排序 。 然 后 选 出 前 Ki 个 位 置信 息 保 存 到 索引 中 ， 其 他 的 都 丢弃 。 
截断 参数 K: 有 多 种 选择 方法 。 一 种 是 为 索引 中 所 有 的 词 项 都 使 用 相同 的 区; 值 。 另 一 
种 是 在 索引 范围 内 选择 一 个 得 分 贡献 阐 值 9， 得 分 贡献 超过 8 的 所 有 位 置信 息 将 被 保留 在 索 
引 中 ， 其 余 的 丢弃 掉 。 第 三 种 方法 是 保证 每 个 词 项 至 少 有 天 个 位 置信 息 在 索引 中 。 如 果 词 
项 :在 超过 K 个 文档 中 出 现 ， 那 么 它 的 位 置信 息 上 限 K, 就 取决 于 它 的 位 置信 息 列 表 的 得 分 
贡献 的 分 布 。 这 就 是 top-(K , e) 裁 前 方法 : 
。 选 定 两 个 参数 KEN, c€[0, 1], 
。 如 果 词 项 t 在 少 于 K 个 文档 中 出 现 ， 在 索引 中 保存 t 的 所 有 位 置信 息 。 
。 如 果 词 项 t 在 超过 KK 个 文档 中 出 现 ， 计 算出 % =score(L;|K|) +e, FE, score 
CL:|K|) 是 t 的 位 置信 息 中 得 分 贡献 第 K 高 的 得 分 。 得 分 贡献 低 于 9 的 位 置信 息 就 
被 丢弃 掉 ,剩余 的 保留 在 索引 中 。 
一 般 来 说 ,如 何 选择 K Ale 不 是 非常 的 明确 。 然 而 ,一 旦 一 个 参数 可 以 确定 , 另 一 个 就 可 
以 自由 的 变动 ,直至 达到 期 望 的 索引 大 小 ,性 能 或 搜索 结果 质量 。 
在 我 们 的 实验 (图 5-8) 中 ,设置 多 一 1000, 通 过 将 es 的 值 在 0. 5~1 中 进行 变动 来 评价 检索 
有 效 性 和 查询 性 能 。 从 图 中 可 以 看 出 , 当 e 二 0.5 时 (裁剪 率 <*50% ) ,裁剪 过 的 索引 和 未 裁剪 
的 索引 在 检索 结果 质量 上 没有 显著 区 别 (P@10 由 0.503 降 为 0. 500, MAP 由 0. 260 降 为 
0. 238) 。 然 而 ,每 次 查询 的 平均 时 间 由 188 ms AJT 118 ms( 一 37 多 )。 对 于 裁剪 程度 更 大 
的 裁剪 参数 ,性 能 甚至 会 更 好 。 但 是 ,如 果 超 过 70% 的 位 置信 息 从 索引 中 被 移 除 ,搜索 结果 质 
量 就 开始 受到 严重 影响 。 


引 检 索 有 效 性 b) 性 能 (毫秒 每 查询 ) 
0.8 wt ee eee ce eee eee eee eee 100 TA a terete i i 
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图 5-8 ”基于 词 项 的 索引 裁剪 算法 ,其 中 二 1000,e 在 0.5~1 之 间 。 效 率 评价 的 
数据 集 为 :来 自 TREC TB 2006 的 10 000 个 查询 。 有效 性 评价 的 数据 集 
为 ;TREC 编号 从 701 一 800 的 主题 
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2. 基于 文档 的 裁剪 

基于 文档 的 索引 裁剪 算法 受 基于 文档 的 伪 相 关 反 馈 方 法 (参见 8. 6 节 ) 启 发 。 伪 相关 反馈 
是 一 种 两 步 查 询 处 理 策 略 ， 第 一 步 : 对 于 给 定 查 询 ， 搜 索引 擎 确定 前 有 个 得 分 最 高 的 文档 。 
它 假设 这 有 个 文档 都 是 与 查询 相关 的 〈 伪 相关 《pseudo-relevance))， 并 从 中 选择 它 认为 最 
能 代表 这 些 文档 的 一 组 词 项 集合 。 通 常 是 基于 词 项 分 布 的 统计 分 析 来 进行 选择 。 选 择 的 词 项 
将 加 到 原 查询 中 去 〈 通 常 带 较 低 的 权重 ， 因 此 它们 不 比 原 查询 词 项 更 重要 )， 第 二 轮 查询 中 
用 这 个 扩展 查询 来 评分 。 事 实证 明 ， 由 伪 相 关 反 馈 选 出 的 词 项 通常 包含 了 原 查询 词 项 。 因 
此 ， 在 索引 阶段 就 可 以 为 每 个 文档 运行 一 个 不 依赖 于 特定 查询 的 伪 相 关 反 馈 算法 一 一 来 为 有 
可 能 获得 高 分 的 文档 选择 一 组 词 项 。 

受 Carpineto A (2001) 提出 的 伪 相关 反馈 机 制 的 启发 ，Biittcher 和 Clarke (2006) 
提出 了 以 下 基于 文档 的 裁剪 算法 ， 

。 选择 一 个 裁剪 参数 AE (0, 1. 

。 对 于 每 一 个 文档 g， 根 据 以 下 函数 对 d PRE n 个 不 同 词 项 排序 : 

Palt 
score(t, d) = pa(t) - log (2) (5-19) 
HH, palO—=fia/la 是 根据 文档 4 的 一 元 语言 模型 计算 的 t OR, pe(t=1,/l,. 
是 根据 文档 集 C 的 一 元 语言 模型 计算 的 t 的 出 现 概 率 。 选 择 前 | *。 n | 个 词 项 保留 在 索引 中 ， 
其 余 的 丢弃 掉 。 

如 果 你 对 信息 学 理论 熟悉 ,那么 公式 (5-19) 可 能 会 使 你 想起 两 个 概率 分 布 之 间 的 
Kullback- Leibler 距离 (Kullback- Leibler divergence, KL divergence)。 给 定 两 个 离散 的 概 
率 分 布 上 和 9， 它 们 的 KL 距离 定义 为 : 

f(x 
2 f(a) - log (43) (5-20) 
KL 距离 常用 来 措 述 两 个 概率 分 布 之 间 的 差异 。 它 在 信息 检索 的 很 多 领域 都 有 重要 作用 。 
9.4 节 中 用 它 来 计算 排名 检索 中 一 个 语言 模型 框架 下 的 文档 得 分 。 

在 索引 裁剪 的 语义 中 ， 我 们 用 KL 距离 来 量化 给 定 的 文档 与 文档 集中 的 其 他 文档 的 差 
F. AR (5-19) 的 裁剪 标准 可 视 为 是 选择 出 对 文档 的 KL 距离 贡献 最 大 的 那些 词 项 ， 因 
此 ， 在 某 种 意义 上 ， 也 就 是 最 能 够 代表 文档 独特 性 的 那些 词 项 。 请 注意 ， 这 个 裁剪 标准 独立 
于 搜索 引擎 使 用 的 评分 函数 。 

图 5-9 给 出 了 基于 文档 的 裁剪 算法 的 实验 结果 。 从 中 可 以 看 出 适当 的 裁剪 对 检索 有 效 
性 几乎 没有 任何 影响 。 例 如 ， 当 从 索引 中 删除 70% 的 位 置信 息 后 (A=0.3), MAP 仍然 
A 0.238 的 水 平 (之 前 0. 260)。P@10 几乎 不 受 影响 ， 甚 至 比 未 裁剪 的 索引 还 要 高 些 
(0. 508 与 0. 503) 。 只 有 当 过 度 裁剪 时 (过 0. 1)， 才 开始 发 现 对 早期 的 查 准 率 〈P@10) 
有 影响 。 . 

对 比 图 5-8 和 图 5-9， 会 发 现在 任何 裁剪 率 上 基于 词 项 的 裁 前 方法 都 比 基 于 文档 的 裁 
前 方法 响应 时 间 要 短 。 这 一 现象 可 解释 为 基于 词 项 的 裁 前 方法 在 索引 中 为 所 有 词 项 选择 
位 置信 息 。 这 些 词 项 大 多 数 是 人 工 产生 的 〈 人 例如， 文档 时 间 惟 )， 不 会 在 搜索 查询 中 出 
现 。 基 于 文档 的 方法 则 认为 这 些 词 项 对 于 它们 代表 的 文档 并 不 重要 《〈 因 为 它们 通常 在 文 
档 中 只 出 现 一 次 ) 。 它 从 索引 中 去 除 这 些 词 项 ， 导 致 剩余 词 项 的 位 置信 息 列 表 的 平均 长 度 
增加 。 因 此 ， 同 样 地 裁剪 水 平 ， 基 于 文档 的 方法 需要 搜索 引擎 完成 更 多 的 工作 。 
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引 检 索 有 效 性 b) 性 能 (毫秒 每 查询 ) 





裁剪 率 (9%) 裁剪 率 (%) 


图 5-9 基于 文档 的 索引 裁 前 算法， 其 中 在 0.05~0.6 之 间 。 效 率 评价 的 数据 集 为 : 来 自 
TREC TB 2006 的 10 000 个 查询 。 有 效 性 评价 的 数据 集 为， TREC 4-3 701~ 
800 的 主题 


图 5-10 对 基于 词 项 和 基于 文档 
的 裁剪 方法 进行 了 一 对 一 的 比较 。 在 
适中 的 性 能 层次 上 (每 次 查询 A er ede e cena 
>60 ms) ,两 种 方法 没有 很 大 的 区 | a 
别 ， 都 能 达到 与 未 裁剪 索引 一 样 的 查 S08 二 





准 率 。 然 而 ， 当 追求 更 高 的 性 能 时 ， 0 “… 全 … EFM 
差异 就 开始 变 得 明显 了 。 例 如 ， 在 辕 V TRS 
定 的 查 准 率 水 平 P@10=0. 45， 基 于 | 
文档 的 裁剪 方法 比 基 于 词 项 的 裁剪 广 a 
ana wen 性 能 CEDEN) 
3 证 
法 具有 很 有趣 的 特性 ， 可 以 通过 改变 与 有 效 性 之 间 的 平衡 


裁剪 算法 的 参数 使 搜索 引擎 操作 在 效率 和 有 效 性 之 间 达 到 平衡 ， 但 在 现实 中 它们 并 不 那么 具 
有 吸引 力 。 例 如 ， 在 Web 搜索 市 场 中 ， 竞 争 激烈 ， 哪 怕 微 小 的 检索 结果 质量 下 降 也 会 使 竞 
争 处 于 劣势 ， 以 致 失去 市 场 份 额 。 性 能 改进 固然 是 受 欢 迎 的 ， 但 也 只 在 不 会 给 检索 有 效 性 带 
来 负面 影响 的 情况 下 。 

Ntoulas 和 Cho (2007) 提出 了 一 种 方法 ， 可 用 于 判断 从 裁剪 的 索引 中 获得 的 搜索 结果 
是 否 与 从 未 裁剪 的 索引 中 获得 的 搜索 结果 一 致 。 他 们 的 工作 基于 的 假设 是 搜索 引擎 采用 的 排 
名 函数 是 词 袋 评分 模型 〈 参 见 公式 (5-16))。 

为 了 简便 起 见 ， 我 们 基于 公式 (5-16) 的 一 个 修改 版 本 〈 无 质量 那个 部 分 ) 来 讨论 
Ntoulas AWE: 

score(q, d) = 5 score(t, d) (5-21) 
tEg 

现在 假设 搜索 引擎 使 用 上 述 形式 的 评分 函数 ， 在 一 个 丢弃 了 部 分 位 置信 息 的 裁 前 后 的 索引 上 
处 理 查询 。 进 一 步 假设 使 用 基于 词 项 的 top-(K, e) 裁 前 机 制 来 裁 前 索引。 那么 对 于 索引 中 的 
每 个 词 项 t+， 都 存在 一 个 阐 值 % ， 使 得 t 的 词 项 贡献 都 大 于 9, 的 所 有 位 置信 息 都 在 索引 中 ， 
同时 更 小 贡献 的 位 置信 息 已 被 丢弃 。 

可 用 以 下 事实 来 确定 裁剪 索引 产生 的 结果 是 否 与 未 裁剪 索引 产生 的 结果 一 样 或 是 不 同 。 
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考虑 一 个 三 单词 查询 9 一 《ti ，t。，ts3〉 和 一 个 经 过 裁剪 后 只 包含 ti 和 ts 但 不 包含 t: 的 文 
档 g。 单 从 索引 来 看 ， 因 为 位 置信 息 被 裁剪 掉 了 ， 无 法 判断 d 到 底 是 否 包 含 t3。 但 是 ,可 
以 知道 就 算 d 包含 t8，score(ts，Q) 也 不 大 于 d, (因为 现在 索引 中 没有 ts 的 位 置信 息 一 一 
译 者 注 )。 这 就 可 以 为 d 的 最 终 得 分 设 定 一 个 上 限 : 

score(q, d) < score(t;, d) 十 score(ta, d) + Vi, (5-22) 
考虑 到 裁剪 索引 的 不 完整 性 ， 我 们 根据 d 的 这 个 上 限 而 不 是 实际 得 分 来 对 d 进行 排名 。 修 
改 图 5- 11 中 的 改进 版 本 算法 ， 结 果 如 图 5- 11 所 示 。 算 法 中 ， 如 果 一 个 文档 没有 包含 查询 
词 项 上， 就 用 裁剪 因子 % 替代 实际 的 得 分 贡献 。 最 后 ， 如 果 可 以 得 到 前 个 结果 的 每 一 个 
文档 的 完整 信息 (第 16 行 results[ 订 .mumHits 一 n%)， 就 知道 这 个 排名 是 正确 的 。 





rankBM25 Document AtATimeWithCorrectnessGuarantee ((t1,..., tn), k) = 
meo // mm 是 匹配 文档 的 总 数 
d — minl<i<n{fnextDoc(ti, 一 co)} 
while d < co do 
results[m].docid — d 
results[m].score 一 0 
results[m].numHits — 0 
for i — 1 to n do 
if nextDoc(t;, d — 1) = d then 


o omn A Nm 


9 results[m].score «— results[m].score + log(N/N:,) - TF mas (ti, d) 
10 results|m|.numHits — results|m|.numHits + 1 

11 else 

12 results[m].score 一 results[m}.score + Ds 

13 mem+l 

14 d — minicien{nextDoc(t;, d)} 

15 按 score 的 降序 排列 results[0..(m — 1)] 

16 if results{é].numHits = n for 0 < i < k then 

17 return (results[0..(k —1)], true) // 结果 保证 是 正确 的 

18 else 








19 return (results[0..(k 一 1)], false) // 结果 可 能 是 不 正确 的 


图 5- 11 基于 裁剪 索引 的 document-at-a-time 查询 处 理 算法 。 根据 是 否 能 保证 返回 
的 前 个 搜索 结果 的 正确 性 ， 函 数 返回 true 或 false 


图 5- 11 中 的 算法 可 作为 一 个 两 层 查 询 处 理 结构 的 一 部 分 ， 其 中 第 一 层 由 一 个 裁剪 索引 
组 成 ， 第 二 层 由 原始 的 未 裁剪 索引 组 成 。 首 先 将 查询 送 到 裁剪 索引 。 如 果 确 保 裁剪 索引 产生 
的 结果 是 正确 的 ， 工 作 就 完成 了 ， 否 则 ， 用 未 裁剪 索引 重新 处 理 查询 。 取 决 于 裁剪 索引 与 未 
裁 前 索引 的 相对 性 能 ， 以 及 裁剪 索引 能 正确 返回 的 查询 比例 ， 这 个 方法 能 在 不 牺牲 搜索 结果 
质量 的 同时 降低 处 理 每 次 查询 平均 的 工作 量 。 但 是 ， 注 意 到 图 5- 11 中 的 算法 不 能 与 基于 文 
档 的 裁剪 方法 同时 使 用 ， 因 为 后 者 不 能 为 裁剪 的 词 项 提供 一 个 得 分 的 上 限 5.。 因 此 ， 尽 管 
基于 文档 的 裁剪 方法 通常 不 会 降低 搜索 结果 的 质量 ， 但 索引 也 没有 包含 足够 的 信息 来 证 明 这 
一 点 。 


5.2 ” 轻 量 级 结构 


第 2 章 的 一 开始 为 倒 排 索引 提出 了 一 个 简单 的 抽象 数据 类 型 〈ADT) 。 我 们 证 明了 这 个 
ADT 可 用 于 词组 搜索 和 计算 涉及 结构 元 素 的 简单 关系 ， 例 如 确定 莎士比亚 戏剧 集中 某 个 角 
色 所 说 的 所 有 台词 。 ee 我 们 显 式 地 使 用 了 ADT 的 方法 找到 这 个 角色 名 字 出 现 
的 地 方 ， 然 后 确定 这 些 地 方 的 台词 。 现 在 使 用 区 域 代数 〈region algebra) 将 这 个 方法 进行 
扩展 和 一 般 化 。 

区 域 代数 提供 支持 轻 量 级 结构 的 合并 和 处 理 文本 区 间 〈 或 区 域 (region)) 的 操作 和 范 
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数 。 它 们 在 基本 的 文档 检索 和 复杂 的 全 XML 检索 中 提供 一 个 中 间 点 (参见 第 16 章 )。 为 支 
持 搜 索引 获 和 数字 图 书馆 ， 它 们 都 提供 了 许多 统一 的 高 级 搜索 (advanced search) 功能。 X 
献 中 已 描述 了 许多 区 域 代数 的 内 容 ， 可 追溯 到 PAT 区 域 代 数 ， 它 在 20 世纪 80 年 代 早 期 由 … 
新 牛津 英语 字典 (New Oxford English Dictionary) 项 目 (Gonnet，1987; Salminen 和 
Tompa, 1994) 创建 。 本 章 涉 及 的 区 域 代数 是 这 组 内 容 的 代表 ， 但 相对 简单 ， 可 以 直接 在 第 
2 章 介 绍 的 技术 (Clarke 等 人 ，1995a，1995b; Clarke 和 Cormack, 2000) 上 建立 。 


5.2.1 广义 索引 表 


概括 地 说 ， 区 域 代数 作用 于 文本 区 间 组 成 的 集合 上 。 每 个 区 间 可 以 表示 为 [4%,v] 对 ， 其 
H, u 代表 区 间 的 起 点 ，% 代表 区 间 的 终点 。 我 们 介绍 的 区 域 代数 对 它 所 操作 的 区 间 集 有 一 
个 简单 但 很 重要 的 要 求 ， 区 间 中 不 能 巾 套 另 一 个 区 间 。 具 有 这 一 性 质 的 区 间 集 被 称 为 广义 索 
引 表 (generalized concordance list) 或 GC-list, 

GC- list 名 字源 于 索引 表 〈concordance) ， 文 档 中 的 单词 按 字母 顺序 排列 ， 并 且 它 们 所 
在 的 文本 也 一 同位 于 索引 中 。 早 在 计算 机 索引 发 明之 前 ， 纸 质 的 索引 表 就 已 经 是 搜索 主要 作 
品 ， 例 如 莎士比亚 文集 的 一 个 工具 。 本 质 上 ， 它 们 都 是 倒 排 索引 的 早期 形式 。 

我 们 用 符号 L4%,v]CLw',v RER u, v EELU v 中。 类 似 的 , Lu, vlu, v] 
RARLUVIAREELY’. UIP. Glu. v] u, v 都 是 我 们 的 区 域 代数 所 操作 的 区 间 集 ， 
HBALu,vjJZLw’,v'], A u<u' bv me u>wAe>l'. Pa, FRY 

S={[1,10],[5,9],[8,12],[15,20]} (5-23) 
不 是 一 个 GC-list ， 因 为 [5,9JCL1,10]。 可 以 把 这 个 集合 约 减 为 GC list, HIN, HBR 
[1,10], 4482]: 








{L5,9],[8,12],[15,20]) (5-24) 
WER, 15,9 ]MIL8,12 138% Coverlap). PAFA, KMACBE RAN. Link, BR 
正 是 区 域 代数 正确 操作 的 关键 所 在 。 注 意 到 也 可 通过 移 除 区 间 [5,9j] 将 5 约 减 为 GC-list。 在 
本 节 的 后 面 会 说 明 ， 优 先 移 除 大 区 间 是 首选 。 
可 将 一 组 区 间 集 约 减 为 GC-list 的 过 程 形式 化 如 下 让 S 为 区 间 集 。 定 义 函 数 9(5) 为 ; 
G(S)={al|aeS H Abest bca} (5-25) 
给 定 一 个 文本 区 间 集 ， 这 个 函数 去 掉 那 些 内 能 了 集合 中 其 他 元 素 的 区 间 ， 从 而 将 集合 约 减 为 
GC-list。 因 此 ， 人 集合? 是 一 个 GC-list 当 且 仅 当 9(S) = SH G(S) = G(G(S)), GC-list 是 从 区 
域 代数 的 操作 中 自然 出 现 的 。 我 们 的 实现 不 会 显 式 地 将 一 个 区 间 集 约 减 为 GC- list, XAR 
数 为 代数 操作 提供 一 个 简明 的 解释 。 
GC-list 还 具有 许多 重要 的 性 质 。 既 然 区 间 不 能 般 套 ，GC-list 中 就 不 会 有 两 个 区 间 开 始 
于 同一 位 置 。 因 此 ， 给 定 两 个 区 间 [wx ,7] ML’, ], Au<w MA ubu., RH, LAR 
会 有 两 个 区 间 结 束 于 同一 位 置 ， 如 果 u<, WWA vx 二 vw。 因此， 按 开 始 位 置 或 结束 位 置 对 
GC-list 中 的 区 间 进 行 排序 得 到 的 结果 是 一 样 的 。 最 后 ， 每 个 位 置 最 多 只 能 是 一 个 区 间 的 开 
始 位 置 ， 因 此 GC list 的 大 小 受 文档 总 长 度 的 限制 。 
模式 独立 的 位 置信 息 列表 可 视 为 是 一 个 GC-list， 其 中 所 有 区 间 长 度 都 为 1]， 即 开始 和 结 
束 于 同一 位 置 。 因 此 ， 图 2-1 中 的 “first” 的 位 置信 息 列表 可 视 为 如 下 GC list 
“first” = {[2205, 2205], [2268, 2268], …, [1271487, 1271487]} (5-26) 
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词组 搜索 的 结果 也 可 看 做 是 一 个 GC-list， 词 组 的 开始 和 结束 的 位 置信 息 就 构成 了 GC-list 中 
的 一 个 区 间 。 人 例如， 莎士比亚 文集 中 的 词组 “first witch” 对 应 的 GC list 为 : ` 
“first witch” = {[745406, 745407], [745466, 745467], [745501, 745502],--} (5-27) 


5.2.2 ”操作 符 


我 们 介绍 的 区 域 代 数 有 7 种 二 元 操作 符 ， 如 表 5-2 所 示 。 每 一 个 操作 符 都 定义 在 GC- 
list 上 ， 并 且 操 作 的 结果 也 为 GC-list。 这 些 操作 符 可 以 分 为 三 类 : 包含 、 组 合 和 排序 。 


表 5-2 区 域 代数 中 二 元 操作 的 定义 
包含 操作 


Contained In: 

AJB={alaEeA 且 3beB ii acb} 
Containing: 

Ap B={a|a€ABHAbe BEBbc a} 
Not Contained In; 

Af#B={al|acAH Abe BB 使 得 a c 吕 } 
Not Containing: 

Ağ B={alaEA 且 FAbEB 使 得 bc a} 


组 合 操 作 
Both Of: 
AAB=9({c|3ae 有 A 使 得 acc 且 365eB 使 得 bc c}) 
One Of; 
AV B=G({cl|JacaA 使 得 acc 或 35beB 使 得 bc cH) 


排序 操作 


Before: 
A= B =G({c |3 ju, v] € A B3 [v v] E€ BHF v<u Blv,v) ce}) 

包含 操作 符 (containment operator) 从 GC- list 中 选 出 Contained In, Not Contained 
In, Containing 或 Not Containing 另 一 个 GC-list 的 区 间 的 区 间 。 包 含 操 作 符 根据 文档 中 结 
构 化 元 素 的 层次 特征 来 形式 化 查询 。 包 含 操作 符 右边 的 表达 式 作为 一 个 过 滤器 限制 了 左边 的 
表达 式 一 一 操作 的 结果 是 左边 GC list 的 一 个 子 集 。 

两 个 组 合 操 作 符 (combination operator) 与 标准 的 布尔 操作 符 AND 和 OR 类 似 。 
“Both Of” 操 作 符 类 似 于 AND: 结果 的 每 个 区 间 包 含 由 两 个 操作 对 象 的 区 间 。90) 函 数 用 来 
确保 结果 仍 是 一 个 GC-list。“One Of” 操 作 符合 并 两 个 GC list: 结果 的 每 个 区 间 都 是 其 中 
一 个 操作 对 象 的 区 间 。 

排序 操作 符 产生 串联 。 结 果 的 每 个 区 间 以 第 一 个 操作 对 象 的 某 个 区 间 开 始 ， 以 第 二 个 操 
作对 象 的 某 个 区 间 结 束 。 第 一 个 操作 对 象 的 区 间 在 第 二 个 操作 对 象 的 区 间 开 始 之 前 结束 。 排 
序 操 作 符 可 用 于 以 下 情形 ， 将 描述 结构 元 素 的 标签 进行 连接 ， 产 生 每 个 区 间 都 对 应 结构 元 素 
的 一 次 出 现 的 GC-list。 使 用 这 7 种 二 元 操作 符 的 例子 将 在 下 一 节 给 出 。 

除了 二 元 操作 符 ， 还 有 两 个 一 元 投影 操作 符 (projection operator), m Alm. WR A 
是 一 个 GC-list， 定 义 














mı(A) = {[u, u] | w H. [u,v] € A} (5-28) 
m2(A) = {[v,v] | 3u E [u,v] € A} (5-29) 

例如 ， 
71({[5, 9], {8, 12], [15, 20]}) = {[5, 5], [8, 8], [15, 15]} (5-30) 
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na({[5, 9], [8, 12], [15, 20]}) = {[9, 9], {12, 12], [20, 20]} (5-31) 
定义 所 有 区 间 定 长 的 GC-list 为 
li] = {lu vo] | v-u+1 =i} (5-32) 
例如 ， 
[10] = {+-, 101, 110}, [102, 111], (103, 112], ---} (5-33) 
5.2.3 例子 


区 域 代数 可 以 用 来 解决 2. 1. 3 节 给 出 的 查询 ， 例 如 ， 
.1. 巫婆 说 的 每 一 行 台词 


( “(LINE)”... “(/LINE)” ) 
< ( ( “(SPEECH)” … “{/SPEECH)” ) 
> (( “(SPEAKER)” … “(/SPEAKER)” ) > “witch” ) ) 


括 弧 括 起 来 的 表达 式 指 示 了 运用 操作 符 的 顺序 。 查 询 首 先 确定 所 有 是 巫婆 的 角色 。 她 们 
所 讲 的 台词 被 提取 处 理 。 所 有 的 中 间 结 果 和 最 终结 果 都 是 GC- lists。 
2. 说 “to be or not to be” 的 角色 名 


( “(SPEAKER)” … “(/SPEAKER)” ) 
< ( ( “(SPEECH)” … “(/SPEECH)” ) 
> (( “(LINE)” … “(/LINE)” ) & “to be or not to be” ) ) 


先 找 出 包含 这 个 引用 的 台词 行 ， 就 确定 了 对 应 的 台词 ， 对 应 的 角色 就 可 以 被 抽取 处 理 。 
因为 这 个 词组 在 莎士比亚 戏剧 集中 只 出 现 了 一 次 ， 因 此 结果 GC list 中 仅 包 含 一 个 区 间 。 

3. 所 有 提 及 巫 泪 和 打雷 的 戏剧 的 名 称 

( “(TITLE)” .… “(/TITLE)” ) 
< (( “(PLAY)” -- “(/PLAY)” ) > ( “witch” A “thunder” ) ) 

查询 首先 确定 同时 包含 词 “witch” 和 “thunder” 的 文本 片段 ， 将 结果 表示 为 一 个 GC 
list。 然 后 抽取 出 包含 这 些 片段 的 戏剧 名 。 

这 些 例子 中 ， 都 做 了 合理 性 假设 ， 即 莎士比亚 戏剧 集 是 用 XML 结构 编码 ， 如 戏剧 名 、 
场景 、 戏 剧 和 每 行 台词 等 元 素 都 内 嵌 于 合适 的 标签 中 ; 所 有 的 台词 都 包括 一 个 角色 和 一 到 多 
行 台词 。 此 外 ， 假 设 这 些 结构 化 元 素 互 不 髓 套 〈 如 台词 中 不 会 包含 另外 一 段 人 台词 ) 。 

区 域 代 数 一 个 独 有 的 特性 是 可 以 为 布尔 查询 赋予 一 定 的 含义 ， 例 如 “witch” 信 “thun- 
der”， 因 为 结果 可 用 一 个 GC list 来 表达 ， 因 此 不 必 指 出 一 个 明确 的 范围 ， 如 戏剧 还 是 台词 
行 。 在 莎士比亚 戏剧 集中 ， 

“witch” A “thunder” = {[31463, 36898], (36898, 119010], [125483, 137236], ---} (5-34) 


在 这 个 GC list 中 ， 区 间 之 间 存 在 着 交 硅 ， 还 有 一 些 区 间 横 跨 几 个 戏剧 。 因 为 区 间 之 间 互 不 
在 套 ， 因 此 每 一 个 区 间 以 “witch” 或 “thunder” 开 始 ， 以 其 他 词 项 结束 。 定 位 戏剧 、 场 
O R 台词 行 ， 或 满足 布尔 表达 式 的 结构 化 元 素 ， 实 际 上 是 用 一 个 GC- list 来 过 滤 另 外 一 个 
GC- list 的 过 程 。 
组 合 操作 符 足 以 处 理 仅 包含 AND 和 OR 的 布尔 表达 式 。 例 如 ， 查 询 
( “witch” y “king” ) A ( “thunder” v7 “dagger” ) 
确定 包含 “witch” 或 “king”，“thunder” 或 “dagger” 的 文本 片段 。 得 到 的 GC-list 区 间 中 
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不 包含 也 满足 该 布尔 表达 式 的 区 间 。 任 何 满足 该 布尔 表达 式 的 大 区 闻 总 是 包含 一 个 GC-list 
中 的 区 间 。 在 公式 (5-25) 定义 的 9S4S) 中 ， 我 们 总 是 选择 移 除 两 个 嵌 套 区 间 中 较 大 的 那个 。 
这 个 选择 内 在 的 原因 在 这 里 变 得 比较 清楚 了 。 至 少 在 布尔 表达 式 中 ， 计 算 这 些 较 大 的 区 间 没 
有 什么 好 处 。 
布尔 NOT 需要 一 个 明确 的 范围 。 例 如 ， 查 询 没 有 提 及 巫婆 或 打雷 的 戏剧 可 表示 如 下 : 
( “(PLAY)” = “(/PLAY)” ) ¥ ( “witch” y “thunder” ) 


区 域 代 数 是 许多 搜索 引 警 和 数字 图 书馆 中 高 级 搜索 功能 的 实现 方法 之 一 。 对 于 这 些 信息 
检索 系统 来 说 ， 支 持 布尔 查询 是 相当 常见 的 ， 这 些 查 询 限制 在 特定 字段 上 ， 如 题目 、 作 者 或 
摘要 。 这 些 查 询 可 以 很 自然 地 映射 为 区 域 代数 。 很 多 Web 搜索 引擎 都 支持 将 搜索 限制 在 某 
个 特定 网 站 的 功能 。 包 含 查 询 词 项 “site: uwaterloo.ca” 将 搜索 限制 在 滑铁卢 大 学 的 网 页 
上 。 假 设 适 当 标 注 和 索引 后 ， 这 个 查询 可 以 转换 为 表达 式 

( “(PAGE)” ... “(/PAGE)” ) > (( “(SITE)” ... “(/SITE)” ) > “uwaterloo.ca” ) 


5.2.4 实现 


区 域 代 数 的 实现 泛 化 了 词组 搜索 算法 、 邻 近 度 排名 算法 和 第 2 章 介 绍 的 布尔 查询 算法 。 
如 前 所 述 ， 每 个 区 间 的 开始 位 置 和 结束 位 置 对 GC list 中 的 元 素 排序 会 得 到 同样 地 结果 。 使 
用 这 个 排序 可 为 高 效 实 现 区 域 代 数 设 计 一 个 框架 。 使 用 类 似 在 2.1 节 定 义 的 倒 排 索引 的 
ADT， 该 方法 将 位 置信 息 索 引 为 GC- list。GC-list 中 区 间 的 排序 是 定义 这 个 ADT 的 基础 。 
给 定 一 个 GC-list 和 文档 集中 的 一 个 位 置信 息 ， 我 们 索引 进 GC list 去 找到 某 种 意义 上 “最 
接近 ”这 个 位 置 的 区 间 。 

考虑 评价 表达 式 A…B ( 见 图 5-12)。 结 果 GC list 中 的 一 个 区 间 开 始 于 A 的 一 个 区 间 ， 
结束 于 B 的 一 个 区 间 。 假 设 [4%, vj 是 A PATKE. mR u, v 是 B 中 第 一 个 满足 
u>, Av EEA B 中 第 一 个 区 间 的 结束 位 置 。 我 们 索引 进 B 来 找 出 满足 
w 之 v 的 第 一 个 区 间 。A 中 在 入 ' 之 前 结束 的 最 后 一 个 区 间 是 4…B 第 一 个 区 间 的 开始 。 我 们 
索引 进 A 来 找到 满足 "二 ww' 的 最 后 一 个 区 间 Cuo" KE Cu” o] 就 是 AB 的 第 一 
ese, SRSA, BSB, BEA, HHH WR A…8B 的 第 一 个 区 间 。A… 
B 的 下 一 个 答案 应 从 ww 后 开始 。 我 们 索引 进 A 产生 ww' 之 后 的 第 一 个 区 间 。 这 种 先后 索引 进 
A 和 B 的 过 程 可 以 继续 找到 A…B 中 剩 下 的 区 间 。 

实现 框架 由 4 个 方法 组 成 ， 允 许 以 不 同 的 方式 索引 进 GC- list。 每 一 个 方法 都 代表 了 
GC-list 中 与 文档 集中 指定 位 置 “ 最 接近 的 区 间 ” 的 符号 。 我 们 用 操作 对 象 上 的 方法 实现 了 
区 域 代数 每 一 个 操作 的 4 个 方法 。 

。 方 法 T(S ,kk) 返 回 GC list S 中 开始 于 上 或 位 于 之 后 的 第 一 个 区 间 : 

juo] 车 3 [wu,v]€ S Ek su 
T(S, k) = | E F [wv] eS ek <u <u (5-35) 
[00,00] a A [u,v] ES 使 得 < u 
。 方 法 pl(S,k) 返 回 S PARF k 或 位 于 之 后 的 第 一 个 区 间 : 
[u,v] ÆJ [u,v] eS ksv 
p(S, k) = | 且 了 [wo]eS 使 得 有 和 ww <v (5-36) 
[00,00] Æ A [u,v] E 5 HK Sv 
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4 …'83 中 第 一 个 区 间 





增加 的 位 置信 息 
图 5-12 评价 GCL 表达 式 A-B 


。 方法 7(S ,1) 是 7 的 道 方法 。 返 回 S PAR k 或 位 于 之 前 的 最 后 一 个 区 间 ， 
lu, v] HFA [u,v] € S EF k> v 
T'(S,k)= | ALA [u’,v'] € SHEER >v >v (5-37) 
[-00,-00] # A [u,v] € SFE > v 
+ Wt (SWE p 的 道 方法 。 返 回 S 中 开始 于 % 或 位 于 k 之 前 的 最 后 一 个 区 间 : 
[u,v] HA [u,v] € SEK >u 
p'(S,k) = | AA [wv] Ee 5 使 得 k>v >u (5- 38) 
Feo-ool # A [u,v] € 5S 使 得 k >u 
例如 ， 当 S={[5,9], [8,12], [15,20]},k=10 时， 我们 有 : 
7T({[5, 9], [8, 12], [15, 20]}, 10) = [15, 20] 
p({[5, 9], [8, 12], [15, 20]}, 10) = [8, 12] 
r'({[5, 9], [8, 12], [15, 20]}, 10) = (5, 9] 
p' ({[5, 9], [8, 12], [15, 20]}, 10) = [8, 12] 


和 倒 排 索引 的 ADT 一 样 , HO [saps nae 
和 一 co 分 别 是 文档 的 结束 符 和 开始 符 。 if vipers if oe 
Fret CS, k), p(S,k), TCS, else if k = 一 co then else if k = 一 co then 
ue a UY —CO 
k) 和 pC(S,%) 与 第 2 章 的 倒 排 索引 else sitio ce if eg a TN 
ADT 有 紧密 联系 。 对 于 单个 查询 词 return |u, u] | return [v, v] 





项 ， 这 些 方法 可 用 ADT 来 定义 ， 如 oa s 
图 5-13 中 的 T(t,k) 和 T(t,k)。 因此 图 5-13 TO OAT DMS, Bt 是 一 个 词 项 


对 图 2-1 的 倒 排 索引 ， 我 们 有 
7( “first”, 745466) = [745501, 745501] - (5-39) 
p(t ,Kk) 的 定义 与 TCt，k) 的 类 似 ，p'(t,) 的 定义 与 7'(t,k) 的 类 似 。 对 于 定 长 区 间 
[i], GC-list 方法 的 实现 甚至 更 简单 ， 因 为 可 以 直接 从 中 计算 出 结果 〔 见 练习 5. 5) 。 
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二 元 操作 符 方 法 建立 在 操作 对 象 的 方法 上 。 图 5-14 给 出 了 一 些 例子 。 在 7(A…B,k) 的 
实现 中 ， 大 多 数 行 都 用 来 处 理 cc 和 一 "边界 。 算 法 的 核心 是 第 5、8 和 11 行 ， 反 映 了 图 5- 12 
中 解释 的 思想 。 第 5 行 计算 开始 于 或 位 于 之 后 的 A 中 第 一 个 区 间 。 第 8 行 计 算 开 始 于 
或 位 于 上 述 A 的 区 间 之 后 B 中 第 一 个 区 间 。 这 个 区 间 的 结束 位 置 也 正 是 答案 7(4…B ,有 ) 的 
结束 位 置 。 最 后 ， 第 11 行 计 算 答案 的 开始 位 置 。 











[ (A. BRS 7(A < B,k) = (Ab B,k) = 
1 if k = co then 13  ifk k = co then 27 «6 if k = oo then 
2 return [co, 00] 14 return |co, co] 28 return [co, co] 
3 if k = 一 co then 15 if k = —oo then 29  ifk= —œ then 
4 return [一 co, 一 co] 16 return [一 co, —co] 30 return [一 co, 一 co] 
5 [u,v] — T(A, k) 17 [u,v] — r(A, k) 31 [u, v] — p(A,k) 
6 if [u, v] = [00, oo] then 18 if [u, v] = [o0, oo] then 32 if [u,v] = [00, oo] then 
7 return [co, 00] 19 return [co, co] 33 return [oo, oo] 
8 [u,v] — 7(B,v+1) 20 [u', v'] — p(B, v) 34 [wv] — 7(B,u) 
9 if [u’, v’] = [00, oo] then 21 if [u,v] = [00, 00} then 35 if [u’, v’] = [00, co] then 
10 return [co, co] 22 return [co, co] 36 return [co, co] 
1 fu”, ve") = r(A, w — 1) 23 ifu’ <u then 37 ifv <v then 
12 return |u”, v'] 24 return [u,v] 38 return [u, v] 
25 else 33 else 
26 return 7(A < B,u’) 40 return p(A > B,v’) 





图 5-14 T(AB,k), TCAD B, WA p(ADPB, WMS, HF AMB E GC list 


这 些 方 法 也 可 以 用 跳跃 式 搜 索 实现 〈( 见 图 2-5)。 为 了 生成 查询 Q 的 所 有 答案 ， 迭 代 的 
HATA, k): 
k0 
while k < co do 
lu, v] — 7(Q, k) 
if k Æ œ then 
output [u,v] 
k«u+1 


5.3 ”延伸 阅读 


5.1 节 一 开始 就 指出 了 ， 排 名 检索 的 查询 处 理 器 既 可 使 用 合 取 的 也 可 使 用 析 取 的 布尔 模型 。 
结合 这 两 个 模型 也 是 可 以 的 。 例 如 ， 先 用 合 取 式 来 评价 查询 ， 当 合 取 式 匹配 了 太 多 文档 的 时 候 就 
将 其 转换 为 析 取 式 。Broder 等 人 (2003) 提出 了 这 种 “ 弱 - AND” 方 法 的 更 一 般 化 的 版 本 。 

MAXSCORE 策略 (5.1.1 节 ) 由 Turtle 和 Flood 提出 (1995), Smith 的 早期 工作 
(1990) 也 提出 过 类 似 的 算法 。 最 近 ，Strohman 等 人 2005) 提出 了 MAXSCORE 的 一 个 改 
进 版 本 ， 使 用 了 预计 算 的 最 靠 前 文档 列表 〈 你 可 将 这 些 列表 视 为 是 一 个 过 度 裁剪 的 索引 ) 来 获 
得 前 个 最 好 的 搜索 结果 的 得 分 的 下 界 。 这 个 下 界 可 用 于 在 文档 被 评分 之 前 将 查询 词 项 从 堆 中 
移 除 。Strohman 等 人 (2005) 报告 说 比 原来 的 MAXSCORE 算法 节省 了 23% 的 时 间 。Zhu 等 人 
(2008) 提出 了 MAXSCORE 的 一 个 变形 ， 使 用 了 包含 词 项 邻近 度 的 排名 函数 。 他 们 的 方法 与 
Strohman 方法 类 似 ， 但 使 用 了 一 个 词组 索引 来 计算 邻近 度 敏感 的 靠 前 文档 。 

Persin 等 人 (1996) 在 “基于 词 频 的 索引 ”的 含义 中 首次 研究 了 影响 力 排 序 。 这 个 基本 
方法 的 改进 随后 在 Anh 等 人 (2001，2004，2006) 一 系列 的 文章 中 提出 。 这 个 系列 的 最 后 
一 篇 文章 尤其 有 趣 ， 因 为 它 说 明了 基于 影响 力 排序 索引 的 结构 对 于 document-at-a-time 查询 
处 理 策 略 的 适用 性 一 一 这 并 不 是 非常 直观 的 。 

PAT 区 域 代数 (Gonnet, 1987; Salminen 和 Tompa, 1994) 最 初 是 因为 新 牛津 英语 字 
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上 典 项 目的 需要 而 被 提出 ， 之 后 被 Open Text 公司 作为 他 们 搜索 引 警 中 的 一 部 分 而 商业 化 了 
(Open Text Corporation, 2001), Tim Bray， 该 引擎 第 一 版 的 唯一 的 作者 ， 之 后 成 为 XML 
标准 的 创建 人 之 一 。 这 个 引擎 的 最 后 版 本 在 20 世纪 90 年 代 中 期 为 Yahoo! 提供 搜索 服务 ， 
并 一 直 促 进 该 公司 企业 内 容 管 理 产 品 向 前 发 展 。 

PAT 的 成 功 激发 了 许多 对 它 的 扩展 和 改进 。PADRE AZ (Hawking 和 Thistlewaite, 
1994) 实现 了 对 PAT 的 并 行 化 。Burkowski (1992) 为 层次 化 区 域 代 数 提 出 了 包含 和 集合 操 
作 。 本 章 讨论 的 区 域 代数 基于 Clarke 等 人 的 工作 〈1995a，1995b) ， 也 可 视 为 是 Burkowski 
区 域 代数 的 一 个 扩展 〈 和 简化 ) Dao A (1996) 以 及 Jaakkola 和 Kilpeläinen (1999) 提 
出 了 支持 对 递归 结构 〈 例 如 ， 台 词 段 中 包含 台词 段 ) 的 进一步 扩展 。Consens 和 Milo 
(1995) 探讨 了 区 域 代数 的 理论 以 及 它 的 局 限 性 。Navarro 和 Baeza- Yates (1997) 将 区 域 代 
数 分 成 很 多 层 ， 支 持 直接 祖先 /后 代 关 系 及 递归 结构 。 

读者 可 以 在 Clarke 和 Cormack (2000〉 中 找到 更 多 关于 高 效 实现 组 合 操作 的 内 容 。 
Zhang 等 人 (2001) 讨论 了 在 关系 数据 库 系 统 中 高 效 实现 包含 关系 的 算法 。Young- Lai 和 
Tompa (2003〉 阐 述 了 一 种 自 底 向 上 的 ， 一遍 扫 描 的 实现 方法 。Boldi 和 Vigna (2006) 探 
讨 了 一 种 使 用 懒惰 评价 的 高 效 实现 。 


5.4 练习 


练习 5.1 公式 (5- 12) 给 出 了 使 用 堆 的 documentatatime 算法 在 最 坏 情 况 下 的 复杂 度 
O(N, :log(n) + Na log (k)). 

(a) 描述 在 何 种 输入 《〈 即 文档 得 分 分 布 ) 下 是 最 坏 的 情况 。 

Cb) 证 明 这 个 算法 的 平均 复杂 度 一 定好 于 @(Na log(k)) WABE 天 盖 人 ， 文 档 得 分 是 平均 分 布 的 ， 
也 就 是 ， 每 个 文档 获得 最 高 得 分 ， 第 二 高 得 分 …… 的 可 能 性 是 一 样 的 。 

练习 5.2 JARAH (布尔 AND) 设计 一 个 支持 累加 器 裁 前 的 termrat-a-time 查询 处 理 算法 。 

练习 5.3 图 5-7《〈b) 说 明了 在 每 个 预计 算得 分 贡献 中 ， 如 果 B 小 于 3 位 ， 每 次 查询 的 平均 CPU 时 间 
就 会 急剧 下 降 。 这 是 查询 处 理 算法 采用 MAXSCORE 策略 带 来 的 副作用 。 解 释 为 什么 对 于 较 小 的 召 值 
MAXSCORE 会 更 有 效 。 

练习 5.4 基于 5.2.3 给 出 的 假定 ， 使 用 区 域 代数 表示 以 下 查询 : 

(a) 找 出 满足 “Birnam” 后 紧 跟 “Dunsinane” 的 戏剧 。 

(b) 找 出 包含 “Birnam” 和 “Dunsinane” 的 文本 片段 。 

Cc) 找 出 巫 袭 说 了 “Birnam” 的 戏剧 。 

(dD 找 出 第 一 行 包含 “toil” 或 “trouble”， 第 二 行 不 包含 “burn” 和 “bubble” 的 台词 段 。 

e) 找 出 幽灵 所 讲 的 一 段 台 词 ， 包 含 词 “fife” 且 所 在 的 场景 为 “Something wicked this way comes”, 

练习 5.5 为 定 长 区 间 写 出 4 种 GC-list 方法 的 伪 码 实现 : TCi], k), Ci], kb), (Li), OM po Ci], 
k). 
练习 5.6 为 两 个 投影 操作 写 出 GClist 方法 的 伪 码 实现 : Tim (A), k), pCm(A), k), TCA), 
pm (A), k), Tm (A), k), pGn(A), k), TGR (A), k), p' (rm CA, ke). 
练习 5.7 根据 图 5-14 的 算法 模式 ， 写 出 以 下 方法 的 伪 码 : 
(a) p(A... Bk) 
(b) r(A A B,k) 
(c) 7(A 7 BLA) 
(d) T(4 B,k) 
(e) pl(A < B, k) 
(f) 7'(4 4 B,k) 


练习 5.8 为 词组 写 出 4 种 GC-list 方 法 的 伪 码 实现 : r(t. --tak) plt.. - tn, k) T (ti... tn, k) F 


k) 
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P(t- tnk), GER: 作为 一 个 好 起 点 ， 请 考虑 图 2- 2 中 nextPhrase 函数 的 实现 。) 
练习 5.9 (项 目 练习 ) ”使 用 document-at-atime 评价 策略 ， 实 现 BM25 排名 式 子 (公式 (8-48))。 实 现 
应 用 MAXSCORE 策略 来 减少 需要 评分 的 文档 数 。 
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索引 压缩 


给 定 文 档 集 上 的 倒 排 索引 会 非常 大 ， 特 别 当 包含 了 文档 集中 所 有 词 项 出 现 的 位 置信 息 
时 。 在 典型 的 英文 文档 集中 ， 大 约 每 6 字 节 的 文本 就 有 一 个 词 条 (包括 标点 和 空格 )。 因 
此 ， 如 果 位 置信 息 以 64 位 整数 存储 ， 我 们 希望 文档 集 未 压缩 的 位 置 索引 耗费 的 空间 是 未 
压缩 的 原始 文本 数据 大 小 的 130 多 一 140 多 。 表 6-1 证 实 了 这 个 估计 ， 它 列 出 了 本 书 中 用 
到 的 3 个 文档 集 未 压缩 的 大 小 、 压 缩 之 后 的 大 小 以 及 未 压缩 和 压缩 之 后 的 模式 独立 索引 的 
大 小 。 例 如 ，TREC45 文档 集 未 压缩 的 模式 独立 索引 大 约 要 十 331 MB 的 空间 ， 是 原始 文 
档 集 大 小 的 122% .9S 

表 6-1 三 个 样 例文 档 集 的 未 压缩 和 压缩 后 的 (gzip-best) 文档 集 大 小 ; 未 压缩 
(64 位 整数 ) 和 压缩 后 的 (vByte) 模式 独立 索引 的 大 小 











文档 集 大 小 索引 大 小 
REM 压缩 后 | 未 压缩 压缩 后 
PEREX 7.5 MB 10. 5 MB (139% ) 2.7 MB (36% ) 
TREC 45 1904. 5 MB 2331.1 MB (122%) | 533.0 MB (28%) 
Gov2 425. 8 GB | 328.3 GB (77%) 62.1 GB (15%) 


减 小 索引 大 小 的 一 个 显著 方法 是 不 要 用 64 位 整数 而 用 [ log(%) 1] 位 整数 给 每 个 位 置信 
Bas, Hep n 是 文档 集 词 条 的 个 数 。 对 于 TREC45 来 说 ，( log(n) | 一 29) 将 把 索引 从 
2331. 1 MB 缩小 到 1079. 1 MB 一 一 是 原始 文档 大 小 的 57% 。 对 比 起 原来 的 64 位 编码 ， 这 
是 一 个 重大 改进 。 然 而 ， 从 表 6-1 中 可 以 看 出 ， 这 目 离 使 用 真正 的 索引 压缩 技术 达到 的 
533 MB 还 差 很 远 。 

因为 倒 排 索 引 由 两 个 主要 部 分 组 成 : 词典 和 位 置信 息 列表 。 因 此 我 们 研究 两 种 不 同类 
型 的 压缩 方法 : 词典 压缩 和 位 置信 息 列 表 压 缩 。 因 为 词典 比 起 所 有 位 置信 息 列 表 来 说 通 
常 要 小 得 多 〈 见 表 4-1)， 所 以 研究 者 和 实际 工作 者 都 更 关注 位 置信 息 列 表 的 压缩 。 然 而 ， 
词典 压缩 有 时 候 也 是 值得 的 ， 因 为 这 可 以 减少 搜索 引擎 对 主 存 的 需求 ， 并 将 释放 的 内 存 
用 于 其 他 目的 ， 例 如 缓存 位 置信 息 列表 或 搜索 结果 .。 

本 章 刹 下 的 内 容 主 要 由 三 个 主要 部 分 组 成 。 第 一 部 分 (6, 1 节 和 6.2 节 ) 简要 介绍 了 
通用 符号 数据 压缩 技术 。 第 二 部 分 (6. 3 节 ) 是 位 置信 息 列 表 的 压缩 。 讨 论 几 种 倒 排列 表 
的 压缩 方法 并 指出 倒 排 索 引 不 同类 型 之 间 的 差异 。 还 介绍 了 如 何 使 用 文档 重 排 技术 提高 
这 些 方法 的 有 效 性 。 最 后 一 部 分 (6. 4 节 ) 涵盖 了 词典 数据 结构 的 压缩 算法 ， 以 及 如 何 通 
过 将 内 存 词典 记录 以 压缩 形式 存储 来 显著 降低 搜索 引擎 的 内 存 需 求 。 


6.1 通用 数据 压缩 


一 般 来 说 ， 数 据 压 缩 算 法 取出 数据 块 A， 转 换 成 另 一 个 数据 块 召 ， 使 得 〈 或 者 期 望 ) 
Bik A 要 小 ， 也 就 是 ， 使 得 在 信道 上 传输 B 或 在 介质 中 存储 B 需要 更 少 的 位 。 每 个 压缩 





日 GOV2 文档 集 的 数字 要 比 其 他 两 个 文档 集 小 是 因为 它 的 文档 包 食 了 很 多 JavaScript 和 不 需要 索引 的 其 他 数据 。 
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算法 都 由 两 部 分 组 成 ， 编 码 器 (encoder) (或 压缩 器 (compressor)) 和 解码 器 decoder (或 
解压 器 (decompressor) ) 。 编 码 器 以 原始 数据 A 为 输入 ， 输 出 压缩 数据 B。 解 码 器 以 B 为 
输入 ， 产 生 某 个 输出 C。 

某 个 压缩 方法 可 以 是 有 损 的 〈lossy) 或 无 损 的 (lossless) 。 在 无 损 算 法 中 ， 解 码 器 输 
出 的 C 是 原始 数据 A 的 一 个 精确 副本 。 在 有 损 算法 中 ，C 不 是 4 的 一 个 精确 副本 而 是 一 
个 近似 ， 即 类 似 于 原始 版 本 。 在 压缩 图 像 (如 JPEG) 或 音频 文件 (如 MP3) 时 ， 有 损 压 
缩 非常 有 用 ， 这 时 与 原始 版 本 的 微小 偏差 不 会 被 人 所 感知 。 但 是 ， 为 了 估计 由 这 些微 小 
偏差 导致 的 质量 损失 ， 压 缩 算法 必须 预先 了 解 被 压缩 数据 的 结构 或 含义 。 

本 章 只 关注 无 损 压 缩 算法 ， 即 解压 器 产生 原始 数据 的 精确 副本 。 这 主要 是 因为 不 清 
楚 一 个 给 定位 置信 息 列表 近似 重 构 的 值 会 是 什么 〈 除 非 有 时 候 访 问 一 个 近似 的 词 项 位 置 
己 经 足够 ) 。 当 人 们 说 起 有 损 索 引 压 缩 (lossy index compression) 时 ， 通 常 不 是 指数 据 压 
缩 方 法 而 是 指 索 引 裁剪 模式 〈 见 5.1.5 节 )。 


6.2 符号 数据 压缩 

当 压 缩 一 个 给 定数 据 块 A 时 ， 通 常 不 太 关 心 A 作为 一 串 字 符 的 实际 形式 ， 而 是 关心 
A 中 包含 的 内 容 〈information) 。 这 个 内 容 也 称 为 消息 (message), AM 表示 。 很 多 数据 
压缩 技术 将 M 视 为 是 符号 集 S 〈 称 为 字母 表 〈alphabeb)) 中 的 一 个 符号 (symbol) P; 

M = (01,02,..-,0n), GES (6-1) 

这 样 的 压缩 方法 称 为 是 基于 符号 的 〈symbolwise) 或 者 基于 统计 的 (statistical) 。 根 据 特定 
的 方法 和 GO) 应 用 ， 符 号 可 以 是 一 个 比特 位 、 一 个 字 节 、 一 个 单词 〈 压 缩 文 本 中 ) 、 一 
个 位 置信 息 〈 压 缩 倒 排 索引 中 ) 或 者 其 他 的 形式 。 为 符号 找到 一 个 恰当 的 定义 有 时 候 是 
困难 的 ， 但 是 一 旦 确定 了 这 个 定义 ,为 了 降低 总 体 存 储 需求 ， 就 可 以 使 用 常见 的 统计 技 
AM M 中 的 符号 进行 重 编码 。 符 号 数据 压缩 背后 的 基本 思想 有 两 层 含义 : 

D M 中 所 有 符号 不 都 以 相同 的 频率 出 现 。 频 繁 符号 比 不 频繁 符号 使 用 更 少 的 位 纺 
码 ， 可 用 更 少 的 总 位 数 来 表示 消息 M。 

2) FES ors m，…， ois ow) 中 的 第 i 个 符号 有 时 依赖 于 前 面 出 现 的 符号 ( …，ci-z， 
0i-1)。 考 虑 符号 之 间 的 这 种 相互 依赖 关系 ， 还 可 以 节省 更 多 的 空间 ，。 

考虑 对 莎士比亚 文集 中 的 文本 进行 压缩 CR XML 标记 的 英文 文本 )， 并 以 ASCH 形 
式 存储 ， 每 个 字符 占 8 字 节 。 不 需要 特别 费力 ， 就 能 将 存储 需求 从 每 个 字符 8 字 节 减少 到 
7 字 节 ， 因 为 文档 集中 仅 含 86 个 不 同 字符 。 但 就 算是 文档 集中 出 现 的 字符 ， 也 能 看 出 这 
些 字 符 出 现 频 率 差距 很 大 。 例 如 ， 莎 士 比 亚 文集 中 6 个 最 频繁 和 6 个 最 不 频繁 的 字符 是 ; 


1.“": 742,018 4.“<”: 359,452 81. “(”: 2 84. “8”: 2 
2. “E”: 518,133 5. “>”: 359,452 e 82. “)”: 2 85. “$”: 1 
3. “e”: 410,622 6. “t”: 291,103 83. “5”: 2 86. “7: 1 


如 果 将 最 频繁 的 字符 (空格 ) 用 少 1 位 (由 ?7 位 减 为 6 位 ) 重 编码 ， 最 不 频繁 的 两 个 字符 
用 多 1 位 (由 7 位 增加 为 8 位 ， 重 编码 ， 那 么 可 以 节省 742 016 位 。 

另外 ， 文 档 集中 连续 字符 之 间 是 互相 依赖 的 。 例 如 ， 字 符 “%”， 在 文档 集中 出 现 了 
114 592 次 ， 在 总 体 频率 范围 内 大 致 位 于 中 间 位 置 ， BÆ, FA “g” 的 每 一 次 出 现 后 面 
总 是 紧 跟 “w”。 因 此 ， 前 面 是 “gq” 的 “w” 就 不 需要 编码 了 ， 因 为 “gq” 后 面 不 可 能 是 
其 他 字符 。 
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6.2.1 建 模 和 编码 


符号 压缩 方法 通常 分 为 两 步 ， 建 模 和 编码 。 建 模 阶 段 计 算出 一 个 概率 分 布 人 f (也 被 
称 为 模型 (model) ) ， 将 符号 映射 为 它们 出 现 的 概率 。 编 码 阶段 根据 码 C 对 消息 M 中 的 符 
号 重 编码 。 码 是 从 每 个 符号 o 到 它 对 应 的 码 字 C(o) 的 一 个 映射 ,通常 是 一 个 位 囊 。C (o) 取 
决 于 由 压缩 模型 人 4 得 到 的 o 的 概率 。 如 果 AM(o) 很 小 ， 那 么 CCo) 会 比较 长 ;， 如果 M(o) 很 
大 ， 那 么 C(o) 会 比较 短 (o 的 码 字 的 长 度 由 它 所 占 的 位 数 来 度量 )。 

根据 建 模 阶 段 如 何以 及 何 时 发 生 ， 符 号 压缩 方法 可 能 是 以 下 三 种 类 型 中 的 一 种 ， 

。 静态 方法 (static method) 。 模 型 人 4 独立 于 要 压缩 的 消息 M。 它 假定 消息 中 的 符号 

满足 一 个 事先 定义 的 概率 分 布 。 否 则 ， 压 缩 结果 会 相当 令 人 失望 。 

。 AAI (Semi static method) 。 在 消息 M 上 执行 一 次 初始 的 扫描 并 计算 出 用 于 

压缩 的 模型 /M。 与 静态 方法 相 比 ， 半 静态 方法 的 好 处 是 不 会 育 目 假定 一 个 特定 分 
布 。 但 是 ， 由 编码 器 计算 出 的 模型 人 4 需要 传输 到 解码 器 端 〈 和 否则， 解码 器 将 不 知 
如 何 处 理 编码 过 的 符号 吝 )， 因 此 需要 尽 可 能 地 压缩 。 如 果 模 型 本 身 太 大 ， 半 静态 
方法 就 失去 了 对 比 静 态 方 法 的 优势 。 

。 自 适应 压缩 方法 (adaptive compression method) 。 编 码 过 程 从 初始 静态 模型 开始 ， 

基于 M 中 已 编码 符号 的 特征 逐步 调整 模型 。 当 压缩 器 编码 c 时 ， 使 用 的 模型 A4; 
仅 依 赖 于 前 面 已 编码 的 符号 (和 初始 静态 模型 )， 
Mi = f(o1,°++,0% ~ 1) 
当 解 压 器 需要 解码 o it, CEZA o. e, oms AER UERR TER 来 重 构 模 
型 At; 。 因 此 ， 自 适应 方法 的 好 处 是 不 需要 将 模型 从 编码 器 传输 到 解码 器 。 然 而 ， 由 于 必 
须 持续 更 新 压缩 模型 ， 这 种 方法 需要 更 复杂 的 解码 流程 。 因 此 ， 解 码 通常 比 半 静 态 方法 
要 慢 一 点 。 

压缩 模型 At 中 的 概率 不 一 定 是 无 条 件 的 。 例 如 ， 选 择 这样 一 个 模型 是 很 常见 的 ， 这 
个 模型 根据 前 1、2、3… 个 已 编码 符号 来 决定 符号 o 的 概率 (在 莎士比亚 文集 中 已 经 看 到 
这 种 情况 ，“g” 的 出 现 已 经 足以 知道 下 一 个 字符 是 “w”) 。 这 样 的 模型 称 为 是 有 限 上 下 文 
(finite-context) 模型 ， 或 是 一 阶 (first-order) 模型 、 二 阶 (second-order) 模型 、 三 阶 
(third-order) 模型 、…。 符 号 的 概率 独立 于 前 面 出 现 字符 的 模型 At 称 为 零 阶 〈zero-order) 
模型 。 

压缩 模型 和 码 之 间 是 紧密 联系 的 。 每 个 压缩 模型 At 都 有 一 个 与 之 对 应 的 码 (或 一 组 
码 ) ， 码 最 小 化 了 由 At 产生 的 符号 串 的 平均 码 字 长 度 。 相 反 ， 每 个 码 也 都 有 对 应 的 概率 分 
A. 使 码 最 优 的 分 布 。 例 如 ， 考 虑 零 阶 压缩 模型 Ato : 


Mo(“a”) = 0.5, Mo(“b”) = 0.25, Mo(“c”) = 0.125, Mo(“d”) = 0.125 (6-2) 
一 个 对 于 模型 Mo 是 最 优 的 码 字 C。 有 以 下 性 质 : 
\Co(“a”)| = 1, |Co(“b”)}| = 2, |Co(“c”)| = 3, [Co(“d”)| =3 (6-3) 
(BER | Co CX) | 代表 Co (X) 的 位 长 度 )。 下 面 这 个 码 满 足 这 个 要 求 9， 
Co(“a”) =56, Co(“b”) = TI, Co(“c”) = T00, Co(“d”) = 101 (6-4) 


它 将 符号 串 “aababacd” 编 码 为 





日 为 了 避免 混淆 数字 “0” 和 “1?” 与 对 应 的 比特 值 ， 除 非 文 中 明确 指出 是 后 一 种 意思 ， 我 们 定义 比特 值 为 0 和 1。 
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Co(“aababacd”) = 00110110100101 (6-5) 
C 一 个 很 重要 的 特性 是 它 无 前 组 〈prefixzfree) ， 也 就 是 ， 不 存在 某 个 码 字 Co(X) 是 另外 一 
个 码 字 Co (y) 的 前 级 。 一 个 无 前 组 码 也 被 称 为 前 缀 码 (prefix code)。 不 是 无 前 缀 的 码 通常 不 
能 用 于 压缩 (也 有 例外 ; 见 练习 6. 3) 。 例 如 ， 考 虑 另外 一 个 码 C1 : 

(a) = T, Gb) = OF, C1(4c”) = TOL, C,(“d”) = 110 (6-6) 

根据 这 些 码 字 的 长 度 ， 这 个 码 看 上 去 也 是 .Mo 的 一 个 最 优 码 。 但 是 ， 符 号 串 “aababacd” 现 
在 被 编码 为 :- 

Ci(“aababacd”) = 11011011101010 (6-7) 
当 解 码 器 看 到 这 个 符号 串 时 ， 它 不 知道 原始 符号 串 是 “aababacd” 还 是 “accaabd”。 因 此 这 
个 码 含 义 不 清 晰 ， 不 能 用 于 压缩 。 


WBC 可 以 看 做 是 一 棵 二 叉 树 ， 其 中 每 O 
一 个 叶子 节点 对 应 一 个 符号 c。 从 树 根 到 叶子 的 of N 
路 径 上 与 相关 的 标签 就 定义 了 符号 的 码 字 ; “a” O 
C(o) 。 叶 子 的 深度 等 于 对 应 符号 码 字 的 长 度 。 o/\1 
图 6-1 是 码 C。 对 应 的 码 树 。 压 缩 算 法 的 解码 O 人 
过 程 按照 树 边 将 位 串 翻译 回 原始 符号 串 ， 一 旦 到 o/\1 
达 叶 子 一 一 输出 一 个 符号 一 一 跳 回 根 节点 ， 实 “o sq” 





质 上 就 是 用 树 作 为 二 元 决策 图 。 二 元 码 的 树 形 图 6-1 MRC 对 应 的 二 又 树 。 码 字 分 别 为 : 


式 也 说 明了 前 缕 性 质 为 何 这 人 么 重要 : 不 是 无 前 Co(“a”) =D, Co(“b”) = TI, 
缀 码 的 码 树 中 ， 某 些 码 字 会 被 赋予 中 间 节 点 ; Co(“c”) = 100, Co(“d”) = TOT 


当 解 码 器 到 达 这 个 节点 时 ， 它 不 知道 是 输出 对 
应 的 符号 并 跳 回 树 根 还 是 继续 按 树 边 遍 历 直 至 叶子 节点 。 
现在 考虑 符号 集 {o, ，…， o,} 上 的 压缩 模型 M， 每 一 个 符号 的 概率 都 是 2 的 等 的 倒数 : 
M(o;) =2°*% ; MEN forlgign (6-8) 
由 于 人 4 是 一 个 概率 分 布 ， 因 此 有 


>》 Moi) = 2™=1 (6-9) 


让 我 们 为 这 个 分 布 找到 一 个 最 优 的 码 树 。 树 中 的 每 个 节点 必须 或 者 是 一 个 叶子 节点 〈 带 一 个 
码 字 ) 或 者 是 一 个 只 有 两 个 孩子 的 中 间 节 点 。 这 样 的 树 称 为 是 一 棵 满 二 叉 树 (proper binary 
tree) 。 如 果树 中 某 个 中 间 节 点 只 有 一 个 孩子 ， 那 么 就 可 以 通过 移 除 中 间 节 点 来 改进 码 ， 其 
后 代 的 深度 就 可 以 减 1。 于 是 这 个 码 也 不 是 最 优 的 了 。 

对 于 满 二 叉 树 的 叶子 节点 的 集合 £ 二 {Li ，…， 工 ) ， 以 下 公式 成 立 ; 


doa) = 1 (6-10) 


i=1 
Bd LAVAL 的 深度 ， 也 是 分 配给 该 节点 对 应 的 符号 的 码 字 长 度 。 由 于 公式 (6-9) 
和 公式 (6-10) 的 相似 性 ， 很 自然 地 会 以 如 下 方式 将 码 字 分 配给 符号 : 
|C(ox)| = d(L;) = Ax = —loge(M(ai)) 1 <ign (6-11) 
得 到 的 树 代表 了 给 定 概 率 分 布 M 上 的 一 个 最 优 码 。 为 什么 呢 ? 如 果 根 据 M 对 符号 串 编 码 ， 
考虑 用 C 之 后 每 个 符号 的 平均 位 长 为 : 
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Dj Prloi] :IC(oi)| = -Y M(o:) logsa(M(oi)) (6-12) 
i=l i=1 


因为 |CCoi) | 二 一 logz (MCSi))。 根 据 以 下 定理 ， 这 是 可 达到 的 最 优 长 度 了 。 
信 源 编码 定理 (香农 ，1948) 
给 定 一 个 符号 源 S， 根 据 概率 分 布 p, 输出 字母 集 S 中 的 符号 ， 得 到 的 符号 串 压缩 后 平 
均 每 个 字符 不 会 少 于 
H(S)= -X` Ps(0) :logs( Ps(o)) 


oes 
Mio HCO NR EMASKI Centropy). 

将 香农 定理 运用 到 模型 M 定 义 的 概率 分 布 上 ， 我 们 可 以 看 到 选 定 的 码 实 际 上 对 于 给 定 
模型 而 言 是 最 优 的 。 因 此 ， 如 果 最 初 假设 所 有 概率 都 是 2 的 寡 的 倒数 〈 见 公式 〈6-8)) 是 成 
立 的 ， 我 们 就 能 知道 如 何 快速 找到 根据 模型 At 产生 的 符号 串 的 最 优 编码 。 当 然 实 际 上 这 很 
少见 。 概 率 可 以 是 区 间 [L0, 1j] 之 间 的 任意 值 。 为 给 定 的 概率 分 布 M 找 到 一 个 最 优 前 缀 码 C 要 
比 当 AM(o,)=2“ 时 困难 一 些 。 


6.2.2” 蚂 夫 曼 编 码 


最 广泛 使 用 的 按 位 编码 技术 之 一 由 哈 夫 曼 (1952) 提出 。 对 于 一 个 有 限 符号 集 {o1 ，…， 
ox} 上 给 定 的 概率 分 布 M， 哈 夫 曼 方法 产生 一 个 前 缀 码 C， 使 下 式 最 小 化 
>》 M(ai) .|C(ai| (6-13) 
i=l 
在 每 个 符号 使 用 整数 个 比特 位 来 表示 的 码 中 ， 哈 夫 曼 编码 被 证 明 是 最 优 的 。 如 果 放宽 限制 ， 
允许 码 字 用 分 数 个 比特 位 来 表示 ， 就 有 其 他 的 方法 ， 如 算术 编码 (6.2.3 节 )， 能 达到 更 好 
的 压缩 效果 。 
假定 有 一 个 压缩 模型 M， 满 足 和 M(o;) 二 Prloi] 1<ixn), BREAKUP AA BME 
率 的 符号 开始 ， 以 自 底 向 上 的 方式 为 这 个 模型 构建 一 个 最 优 码 树 。 算 法 可 以 被 视 为 在 一 组 树 
上 进行 操作 ， 每 一 棵 树 都 被 赋予 了 一 个 概率 质量 。 刚 开始 每 个 符号 o 只 有 一 棵 树 Ti， 满足 
PriT;] = Prloi:]。 算 法 每 执行 一 步 ， 具 有 最 小 概率 质量 的 两 棵 树 Ti 和 Th 就 被 合并 为 一 棵 新 
树 T,。 这 棵 新 树 的 概率 质量 为 Pr[Ti] = PriT;] 十 PrlTk]。 重 复 这 个 步骤 直到 只 剩 一 棵 树 
Tas， 满 足 Pr[Trug] 王 1。 
图 6-2 展示 了 在 符号 集 6 二 {0 ,0s,o,04,0;) 上 算法 执行 的 每 一 步 ， 这 个 符号 集 具有 如 下 
概率 分 布 : 
Prloi] = 0.18, Pr[o2] = 0.11, Prlos] = 0.31, Pr[o4] = 0.34, Prios] = 0.06 (6-14) 
这 棵 树 生 成 之 后 ， 按 照 自 顶 向 下 的 方式 遍历 这 棵 码 树 为 符号 分 配 码 字 。 例 如 ，cs 的 码 字 为 
Ol, o: 的 码 字 为 110。 
最 优 性 
为 什么 这 种 方法 产生 的 码 是 最 优 的 ? 首先 ， 注 意 到 一 个 最 优 前 缀 码 C ow 必须 满足 下 面 的 
条 件 : 
Pr[z] < Pry] = |Copt(z)| > \Cope(y)| 对 于 每 一 对 符号 (zy) (6-15) 
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第 一 步 : AMES Bl 
ED ED 


第 二 步 : 合并 树 {oc2} 和 {os} 


' of Na 
CESC 
第 三 步 : 合并 树 {c1} 和 {02, os} 


0 Na 
of Na 
CEDC 


第 四 步 : 合并 树 {c4} 和 {co3} 


{03,04} (0.65) > 02,05} (0.35) 


0 f Na 
taa} (0.3) C_ {oa} (0.81) D Aa} ©. < {02,75} (0.17) 
of Na 


SRE: FM {o3, 74} A {o1, 02,05} 


"一 = 
{73,04} (0.65) {o1,¢2, 05} (0. < 
of NI of 
Toa} (0.34) YC {os} (0.31) DC tor} (0.18) = os} (0.17) 


oF Na 


图 6-2 符号 集 {oi .az .os .at .os 对 应 的 概率 分 布 为 ， PrLo J=0. 18, Pr[o: ]=0. 11, 
Prto ]=0. 31, Prio J=0. 34, Prlos ]=0.06 为 这 个 符号 集 建立 哈 夫 学 编码 树 


《否则 ， 我 们 可 以 简单 交换 x 和 Y 的 码 字 ， 来 获得 更 好 的 码 )。 并且 ， 由 于 最 优 前 级 码 总 是 被 
表示 成 为 一 棵 满 二 叉 树 ， 因 此 两 个 最 不 相同 的 码 字 总 是 具有 相同 的 长 度 a (它们 的 节点 应 该 
是 兄弟 ， 位 于 二 叉 树 Co 的 最 底层 ， 如 果 它 们 不 是 兄弟 ， 我 们 就 重 排 最 底层 的 叶子 使 得 它们 
可 以 变 成 兄弟 )。 

通过 对 构建 前 级 码 的 符号 数目 n 做 归纳 ， 我 们 可 以 证 明 哈 夫 曼 算法 的 最 优 性 。 当 n=1 
时 ,算法 产生 一 个 高 度 为 0 的 编码 树 ， 显 然 是 最 优 的 。 对 于 一 般 情 况 ， 考 虑 符号 集 5 = 
forst soa) tho; 和 cx 分 别 代 表 具 有 最 小 概率 的 两 个 符号 (jk w.1.0.g. )。 它 们 的 码 字 长 
度 都 为 4 。 因 此 ， 对 于 由 5S 中 符号 组 成 的 符号 早 ， 码 字 的 期 望 长 度 〈 比 特 位 /符号 ) 为 : 

E[Huf(S)] = d- (Prloy] +Prlox)+ XO Prie]. C(e) (6-16) 
rE(S\ {05 ,0%}) 

考虑 符号 集 : 


/ / 
S = {01, +++, 0j—1,05415°**, Ok—1,0k+1,''' On, 0} (6-17) 
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删除 符号 o 和 zx， 并 用 新 符号 zx 来 代替 它们 ， 可 得 下 面 的 符号 集 : 
Prlo'] = Pr[o;] + Priok] (6-18) 
因为 在 S 的 喻 夫 曼 编码 树 中 ，o' 是 o; 和 ox 的 父 节 点 ， 所 以 在 S 树 中 ，c 的 深度 为 & 一 1。 对 于 
由 S' 中 符号 组 成 的 符号 串 ， 码 字 的 期 望 长 度 为 ， 
E[Huff(S’)] = (a—1):(Prloy +Prlor)+ $O Prie]. ie) 
ze(S'\{c']) 
tee, ELHuffcs) J=ELHuff(s) ]—Prlo; ]—Prlo; J. 
通过 归纳 我 们 知道 ，S' 的 哈 夫 曼 树 是 一 个 最 优 前 缀 码 《因为 6' 中 包含 n—-1 个 元 素 )。 现 
在 假设 S 的 哈 夫 曼 树 不 是 最 优 的 。 那 么 一 定 存在 着 另外 一 个 最 优 编码 树 ， 使 得 期 望 代价 是 : 


(6-19) 


E(Huff(S)] — e (部 分 > 0) (6-20) 
如 前 所 述 ， 对 这 棵 树 中 的 节点 o 和 ow 做 分 裂 ， 我 们 可 以 得 到 S' 的 一 个 新 码 树 ， 期 望 代 价 为 : 
E[Huf(S)] — e — Prlcj] — Prlok] = E[Huff(S’)] 一 < (6-21) 


(这 总 是 成 立 的 ， 因 为 o; 和 zx 在 最 优 编码 树 中 是 兄弟 ， 前 面 也 解释 过 )。 然 而 ， 这 与 S' 的 哈 
夫 曼 树 是 最 优 的 这 一 前 提 了 矛盾 。 因 此 代价 小 于 ELHuff(S)] 的 S 的 前 缀 码 不 存在 。s 的 哈 夫 曼 
编码 树 必须 是 最 优 的 。 

1. 复杂 度 

哈 夫 曼 算 法 的 第 二 个 阶段 通过 人 遍历 第 一 个 阶段 建立 的 编码 树 为 每 一 个 符号 分 配 码 字 。 这 
个 过 程 能 够 在 8(n) 时 间 内 完成 ， 因 为 树 中 只 有 2n 一 1 个 节点 。 第 一 个 阶段 建树 的 过 程 稍微 
复杂 些 。 它 需要 我 们 不 断 跟 踪 具 有 最 小 概率 质量 的 两 棵 树 。 这 可 以 通过 维持 一 个 优先 队列 
(如 最 小 堆 ) 来 实现 ， 使 得 队 头 总 是 保存 那 棵 具有 最 小 概率 的 树 。 这 样 的 数据 结构 支持 在 
@Clog(n)) Ht lal A Ky INSERT 和 EXTRACT-MIN 操作 。 因 为 哈 夫 曼 算 法 总 共 需 要 执行 
2(n 一 1) 次 EXTRACT-MIN 操作 和 ?2 一 1 次 INSERT 操作 ， 所 以 第 一 阶段 的 时 间 复 杂 度 为 
Q(nlog(n))。 因 此 ， 这 个 算法 的 总 的 时 间 复 杂 度 也 为 BCzlog(z) ) 。 

2. PAESE 

当 使 用 哈 夫 曼 编码 进行 数据 压缩 时 ， 需 要 在 压缩 后 的 符号 串 前 面 添加 实际 码 的 描述 信 
息 ， 使 得 解码 器 能 够 将 编码 后 的 位 串 还 原 成 原始 的 符号 种。 这 个 描述 信息 被 称 为 前 言 pre- 
amble) 。 它 通常 是 所 有 符号 及 其 码 字 组 成 的 列表 。 对 于 图 6-2 的 哈 夫 曼 码 ， 前 言 如 下 : 

((o1, 10), (02, 110), (03, 01), (o4, 00), (os, 111) (6-22) 
用 这 样 的 方式 描述 哈 夫 曼 码 是 非常 耗费 存储 空间 的 ， 特 别 是 当 实际 被 压缩 的 消息 相对 较 
短 时 。 

幸运 的 是 ， 实 际 上 不 需要 包含 对 实际 码 的 详尽 描述 ， 只 描述 某 些 方面 就 够 了 。 再 考虑 图 
6-2 构建 的 哈 夫 曼 树 。 图 6-3 给 出 了 一 棵 与 之 等 价 的 哈 夫 曼 树 。 新 树 中 每 个 符号 o 对 应 的 码 
字 长 度 与 旧 树 的 一 样 。 因 此 ， 没 有 理由 能 够 说 明 图 6-2 的 码 比 图 6-3 的 码 更 优越 。 

从 左 到 右 读 图 6-3 中 的 符号 z;， 并 按照 它们 对 应 的 码 字 长 度 排序 〈 码 字 短 的 排 在 前 面 ); 
符号 的 自然 序 (如 oj 排 在 os 前 面 ) 就 被 打 乱 了 。 上 有 具有 这 种 特性 的 码 叫 做 范式 哈 夫 股 码 (ca- 
nonical Huffman code) 。 对 于 每 一 个 可 能 的 哈 夫 曼 码 C， 都 有 一 个 与 之 等 价 的 范式 哈 夫 曼 
Cano 

当 描 述 一 个 范式 哈 夫 曼 码 时 ， 列 出 所 有 符号 码 字 的 位 长 就 够 了 ， 不 需要 描述 实际 的 码 
字 。 人 例如， 图 6-3 中 的 树 可 以 描述 为 

( (01,2), (02, 3), (03, 2), (04, 2), (05, 3)) (6-23) 
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{91,02,03,04,05} (1.00) 


2 一 ™ 
o Ni 0% NI 
Bie SICH 
of Noi 
in 


图 6-3 图 6-2 中 的 哈 夫 曼 码 的 范式 版 本 。 树 中 同一 层 的 符号 按照 字母 顺序 排序 


同样 地 ， 图 6-1 对 应 的 范式 哈 夫 曼 码 为 
((“a” 0), (“b” , 10), (“e” , 110), (“d”, ITT) ) (6-24) 
它 可 以 描述 为 
((“a”, 1), (“b”, 2), (“c”, 3), (“d”, 3)) (6-25) 
如 果 解 码 器 事先 知道 符号 集 S， 那 么 这 个 范式 哈 夫 曼 码 可 以 表示 为 (1，2, 3, 3)， 这 种 方 
式 会 比 任意 哈 夫 曼 码 的 描述 形式 要 紧凑 两 倍 。 
3. 限 长 的 哈 夫 曼 码 
有 的 时 候 对 给 定 的 哈 夫 曼 码 中 的 码 字 长 度 限 定 一 个 上 界 是 很 有 用 的 。 这 主要 是 由 于 性 能 
方面 的 原因 ， 当 码 字 不 会 太 长 的 时 候 ， 解 码 操 作 才 会 更 有 效 (我们 将 在 6.3.6 节 中 详细 介 
绍 ) 。 
我 们 知道 ， 对 于 具有 n 个 符号 的 字母 表 ， 我 们 总 是 能 找到 一 个 前 级 码 ， 它 的 每 个 码 字 
不 超过 [logs (n)] 位 。 给 定 码 字 长 度 的 一 个 上 界 L(L>| loge (n) ]) ， 存 在 有 这 样 的 算法 能 够 产 
生 所 有 码 字 长 度 不 超过 工 的 前 缀 码 中 的 最 优 前 缀 码 Ci: 。 大 多 数 这 样 的 算法 首先 构造 一 个 普 
通 的 哈 夫 曼 码 C， 然 后 在 表示 C 的 二 叉 树 中 做 一 些 变换 来 计算 Cr 。 从 技术 上 来 说 ， 这 样 的 码 
不 再 是 哈 夫 曼 码 ， 因 为 它 已 不 是 全 局 最 优 〈 只 在 所 有 限 长 的 码 中 是 最 优 的 )。 但 是 实际 上 ， 
结果 码 中 额外 的 元 余 是 可 以 忽略 的 。 
构造 限 长 前 缀 码 最 著名 的 方法 之 一 是 Larmore 和 Hirschberg (1990) 提出 的 PACK- 
AGE-MERGE 算法 。 它 能 够 在 O(nL) 时 间 内 产生 一 个 最 优 的 限 长 前 级 码 ， 其 中 n 是 字母 
表 中 的 符号 数 。 因 为 工 通 常 是 比较 小 的 (毕竟 ,这 也 是 整个 操作 的 目的 )， 所 以 ，PACK- 
AGE-MERGE 算法 并 没有 给 基于 哈 夫 曼 的 压缩 算法 的 编码 部 分 增加 不 合理 的 复杂 度 。 并 且 ， 
正如 普通 的 哈 夫 曼 码 一 样 ， 我 们 总 是 能 为 任何 给 定 限 长 码 找到 一 个 等 价 的 范式 码 ， 从 而 可 以 
进行 如 前 一 样 的 优化 。 
6.2.3 算术 编码 
哈 夫 曼 编码 的 主要 限制 在 于 它 不 能 正确 处 理 符号 分 布 中 概率 接近 1 的 那些 符号 。 例 如 ， 
考虑 以 下 两 个 符号 的 字母 表 S 二 (“a”,“b”} 的 概率 分 布 ， 
Pr[“a”] = 0.8, Pr[“b”] = 0.2 (6-26) 


由 香农 定理 可 知 ， 根 据 这 个 概率 分 布 产生 的 符号 串 编码 之 后 每 个 符号 平均 所 需 的 位 数 不 会 
DF: 
—Pr[“a”] - loga(Pr[“a”]) — Pr[“b”] - loga(Pr[“b”]) œ 0.2575 + 0.4644 = 0.7219 (6-27) 
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然而 ， 使 用 哈 夫 曼 编码 ， 最 好 的 情况 是 每 一 个 符号 占用 1 位 ， 因 为 每 一 个 码 字 所 用 的 位 数 必 | 
须 为 整数 。 因 此 ， 与 香农 定理 可 获得 的 下 界 相 比 ， 哈 夫 曼 的 方法 需要 的 存储 容量 增加 
了 39%, , 
为 了 改进 哈 夫 曼 方 法 的 性 能 ， 我 们 必须 所 弃 为 每 个 符号 单独 分 配 一 个 码 字 的 想法 。 例 
如 ， 我 们 可 以 将 多 个 符号 组 合成 mm- 元 组 ， 然 后 给 每 个 唯一 的 mr- 元 组 分 配 一 个 码 字 (这 
种 技术 也 被 称 为 分 块 (blocking))。 对 于 上 面 的 例子 ,选择 m=2, 将 得 到 下 面 的 概率 
分 布 : 
Pr[“aa”] = 0.64, Pr[“ab”] = Pr[“ba”] = 0.16, Pr{“bb”] = 0.04 (6-28) 
对 于 这 个 分 布 ， 在 哈 夫 曼 码 中 ， 每 一 个 2- 元 组 将 需要 1. 56 位 ， 或 者 说 每 一 个 符号 平均 需要 
0.78 位 〈 见 练习 6.1)。 然 而 ， 有 的 时 候 将 符号 分 块 有 些 麻烦 并 且 会 增加 前 言 〈 哈 夫 曼 码 的 
描述 信息 ) 的 大 小 ， 前 言 也 还 是 需要 从 编码 器 传输 到 解码 器 的 。 
算术 编码 (Arithmetic coding) 用 一 种 更 简洁 的 方式 解决 了 这 个 问题 。 考 虑 符号 集 S = 
(oi1，,""… ,04) 中 的 个 符号 组 成 的 串 . 
(81,52,°.*,Sk) E S* (6-29) 
每 一 个 这 样 的 申 都 对 应 一 个 概率 。 例 如 ， 如 果 固 定 & 值 大 小 ， 那 么 上 述 符号 串 出 现 的 概 
ZH: 


k 
Pr[(s1, s?,……… , sk)] = TPrtsd (6-30) 


i=1 
显然 地 ， 具 有 相同 长 度 OARS BAA 1. Bk, BAe Wee Pits 
的 符 导 串 x 视 为 一 个 区 间 [x1，%z), 且 0 二 2i 委 2 委 1，2: 一 21Prlz]。 这 样 的 区 间 可 以 看 做 
是 L0，1) 的 子 区 间 ， 按 照 对 应 符号 串 的 字母 顺序 ， 从 而 可 以 得 到 [0,，1) 的 一 个 划分 。 
重新 考虑 公式 (6-26) 中 的 分 布 。 使 用 区 间 表 示 方 法 ， 符 号 串 “aa” 对 应 L0，0. 64); 
符号 串 “ab” 对 应 [0. 64，0. 80);， 符 号 串 “ba” 对 应 [0. 80, 0.96); 最 后 “bb” 对 应 [0. 96, 
1.0) 。 这 个 方法 可 以 一 般 化 到 任意 长 度 的 符号 串 上 ， 如 图 6-4 所 示 。 








aa’ ‘ab “ba” ‘bb 
0 0.512 0.64 0.8 0.96 1 
长 度 为 3 的 消息 
“aaa” b ba” “abb” “baa” 


图 6-4 算术 编码 : 将 符号 串 转换 成 在 [0，1) 区 间 上 的 子 区 间 。 消 息 M ASH) 被 编码 为 一 个 
与 M 对 应 的 二 元 子 区 间 。 本 例 中 ， 概 率 分 布 为 : Pr[“a?”] 一 0.8，Pr[“b 一 0. 2 


有 了 消息 和 区 间 之 间 的 映射 ， 给 定 消息 就 可 编码 为 相应 区 间 工 ， 而 不 再 是 消息 本 身 。 可 
能 直接 对 了 进行 编码 有 些 困难 ， 因 此 ， 算 术 编 码 对 区 间 工 中 一 个 更 小 的 区 间 了 进行 编码 〈 即 
TST)， 具 有 如 下 特殊 形式 : 
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aq . 
T=[rx,z+27%), 且 z= dja .2 (a; € {0,1}) (6-31) 
i=1 


我 们 将 其 称 为 二 元 区 间 (binary interval) 。 二 元 区 间 可 以 用 很 直接 的 方法 编码 成 位 串 (ai， 
Gos, Gy). PUN, FARES 0 来 表示 区 间 [0,， 0.5)， 用 位 趾 0 来 表示 区 间 [0. 25, 5); 用 位 
串 010 来 表示 区 间 [0. 25, 0.375). 

以 下 两 个 步骤 的 结合 就 称 为 算术 编码 (arithmetic coding): 1) 将 一 个 消息 转换 成 等 价 
KZ; 2 将 I 中 的 二 元 区 间 编 码 为 简单 位 串 。 当 收 到 消息 “aab” 时 ， 算 术 编 码 器 将 找到 
对 应 的 区 间 工 二 [0. 512, 0.64) (UKA 6-4)， 接 着 在 这 个 区 间 中 确定 二 元 子 区 间 : 

T' = [0.5625,0.625) = [zx, £ + 277) (6-32) 
其 中 x 一 1. 271 +0. 272 +0. 2741.27, A, TH “aab” 4905271001. 

对 于 同样 地 概率 分 布 ， 看 起 来 占用 4 位 的 1001 反 而 比 3 位 的 哈 夫 曼 码 还 要 多 出 1 位 。 
但 对 于 消息 “aaa”， 哈 夫 曼 码 同样 需要 3 位 ， 但 算术 编码 仅 需要 1 位 〈0) 。 一 般 来 说 ， 发 
生 概率 为 p 的 消息 对 应 区 间 工 王 LY，34 十 p)， 我 们 需要 找到 一 个 二 元 区 间 [z,zx 十 2 )， 
满足 : 





2 和 Z<ZT+T2 I SYy+p (6-33) 
能 够 证 明 ， 对 于 所 有 满足 2 <p/2hq. BRERAI—TRR MIRA. WER TRAHY 
最 小 的 q 为 : 


q = [—log,(p)| +1 (6-34) 
所 以 ， 为 了 编码 具有 概率 p= 本 ] ,Pr[s;] 的 消息 M: 
M = (81, 82,. +. Sk) (6-35) 


我 们 需要 的 位 数 不 超 过 [一 logs 《Pp)] 十 1。 对 于 仪 包含 少数 几 个 符号 的 消息 ,，“ 十 1” 这 一 项 可 
能 会 使 算术 编码 的 空间 效率 不 如 哈 夫 曼 编 码 。 但 是 ， 当 k 2 时， 根据 香农 信 源 编码 定理 
( 见 6. 2. 2 节 ) ， 算 术 编码 的 每 个 符号 的 平均 位 数 接近 理论 最 优 。 因 此 ， 如 果 压 缩 模型 人 能 
够 准确 地 描述 待 压缩 符号 串 的 统计 特性 ， 算 术 编 码 近似 最 优 。 
算术 编码 有 两 个 有 利 的 性 质 ， 
。 在 输入 符号 串 的 不 同位 置 可 以 使 用 不 同 的 模型 〈 取 决 于 解码 器 已 访问 过 的 信息 的 限 
制 )， 从 而 使 得 算术 编码 是 可 选 的 自 适 应 压缩 方法 之 一 。 
。 解码 器 事先 不 需要 知道 消息 的 长 度 ， 而 是 将 一 个 消息 结束 的 符号 加 入 到 字母 表 中 ， 
并 与 字母 表 中 的 其 他 符号 一 样 等 同 对 待 〈 特 别 的 ， 在 压缩 模型 中 不 断 更 新 它 的 概率 ， 
使 得 当 消息 越 来 越 长 的 时 候 它 所 需 的 概率 质量 越 来 越 小 ) 。 
本 章 中 我 们 不 会 详细 地 介绍 算术 编码 细节 的 内 容 。 如 果 对 细节 感 兴趣 ， 你 可 以 在 任何 一 
本 数据 压缩 的 教科 书 中 〈 见 6. 6 节 ) 找到 这 些 细节 。 
1. 实现 
从 我 们 对 算术 编码 的 描述 看 来 ， 编 码 和 解码 的 过 程 需 要 浮 点 数 操作 ， 并 且 在 实现 中 容易 
受到 四 合 五 人 错误 和 其 他 一 些 问 题 的 影响 。 但 是 不 会 有 这 样 的 情况 。 例 如 ，Witten 等 人 
(1987) 介绍 了 如 何 使 用 整数 算术 来 实现 算术 编码 ， 代 价 是 元 余 稍 微 会 增加 每 符号 比特 位 
增加 不 超过 10“ 位 )。 
2. 哈 夫 受 编 码 与 算术 编码 
从 每 个 符号 所 需 的 位 数 来 看 ， 算 术 编 码 与 哈 夫 曼 编 码 相 比 ， 所 具有 的 优势 取决 于 概率 分 
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布 M。 明 显 地 ， 当 所 有 符号 概率 都 是 2 的 容 的 倒数 时 ， 那 么 哈 夫 曼 编 码 就 是 最 优 的， 算术 
编码 没有 任何 优势 可 言 。 然 而 ， 对 应 任意 一 个 模型 M， 与 最 优 的 算术 编码 相 比 ， 很 容易 就 
能 看 出 哈 夫 曼 编 码 具 有 宛 余 〈 即 每 一 个 符号 编码 浪费 的 位 数 )， 它 比 最 优 的 算术 编码 多 出 1 
位 。 这 是 符合 事实 的 ， 因 为 我 们 能 够 容易 地 构造 一 个 满足 码 字 长 度 |1C (oi) |= — log: (pi) | 的 
前 级 码 。 这 个 码 的 每 个 符号 的 元 余 度 不 超过 1 位 ， 又 因为 它 是 一 个 前 缀 码 ， 它 不 可 能 比 人 4 
的 哈 夫 曼 码 要 好 。 

一 般 地 ， 哈 夫 曼 码 的 元 余 度 依赖 于 符号 集 的 概率 分 布 的 特征 。 例 如 ，Gallager (1978) 
证 明了 对 于 一 个 给 定 的 压缩 模型 M， 哈 夫 曼 码 的 元 余 度 总 是 小 于 AM Com) 十 0. 0861， 其 中 
gmx 是 最 可 能 出 现 的 符号 。Horibe (1977) 证 明了 宛 余 度 至 多 为 1—2 + Mlan) ， 其 中 own 指 
的 是 最 不 可 能 出 现 的 符号 。 

由 于 哈 夫 曼 编码 达到 的 压缩 率 通常 已 经 非常 接近 理论 最 优 值 ， 又 因为 哈 夫 曼 码 的 解码 操 
作 实现 起 来 比 算术 编码 更 高 效 ， 所 以 哈 夫 曼 编 码 通常 被 认为 比 算术 编码 更 优 。 在 索引 还 缩 的 
应 用 中 更 是 如 此 ， 因 为 开发 一 个 搜索 引擎 时 ， 通 常 主要 考虑 的 指标 是 查询 处 理 的 性 能 而 不 是 
倒 排 索引 的 大 小 。 限 长 的 范式 哈 夫 曼 码 解码 时 效率 非常 高 ， 比 算术 码 要 快 很 多 。 


6.2.4 基于 符号 的 文本 压缩 


刚才 介绍 的 通用 的 基于 符号 的 数据 压缩 可 直接 用 于 文本 压缩 问题 。 例 如 ， 如 果 想 减少 
一 个 给 定 文档 集 的 存储 容量 ， 你 可 以 写 一 个 半 静 态 的 基于 哈 夫 曼 压 缩 算 法 的 算法 ， 使 用 
两 个 步 又 来 压缩 文档 。 第 一 步 : 收集 文档 集中 所 有 字符 出 现 的 频率 ， 得 到 一 个 零 阶 压缩 
模型 。 然 后 根据 这 个 模型 构造 一 个 哈 夫 曼 码 C。 第 二 步 ， 将 每 一 个 字符 a 用 它 对 应 的 码 字 
C(o) 代 替 。 

如 果 你 实现 了 这 个 算法 并 在 任意 英文 文本 上 使 用 ， 你 将 发 现 这 个 文本 的 压缩 版 本 每 个 字 
符 都 需要 超过 5 位 来 表示 。 这 与 英文 文档 的 零 阶 炳 大 概 是 每 字符 5 位 的 观点 是 一 致 的 。 
表 6-2 列 出 了 在 三 个 样 例 数 据 集 上 的 具体 实验 结果 。 


表 6-2 三 个 文档 集 上 的 文本 压缩 率 {每 字符 所 占 位 数 )。 其 中 哈 夫 曼 编 码 和 算术 编码 中 没有 计 
入 压缩 模型 (GI, MARA) 的 大 小 ， 而 压缩 模型 也 是 需要 发 送 到 解码 器 端的 
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2. 933 
2. 832 





5. 190 
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5. 381 












你 可 用 一 阶 压缩 模型 代替 零 阶 压缩 模型 来 优化 算法 。 这 需要 构建 和 保存 〈 发 送 ) 多 达 
256 棵 哈 夫 曼 树 ， 每 一 棵 对 应 一 个 可 能 的 上 下 文 内 容 〈 即 未 压缩 文本 中 前 一 个 字 节 的 内 容 )， 
但 却 能 提高 压缩 效果 ， 使 得 每 个 字符 所 占 的 空间 减少 到 不 足 4 位。 这 个 方法 还 能 够 使 用 二 阶 
模型 、 三 阶 模型 …… 来 扩展 ， 得 到 越 来 越 好 的 压缩 率 。 这 表明 英文 文本 中 的 相 邻 字符 存在 很 
强 的 相依 性 (例如 ， 忒 士 比 亚 文集 中 每 个 “gq” 后 都 跟着 “u”)， 通 过 利用 这 种 依赖 关系 ， 
可 以 得 到 比 每 字符 5 位 好 得 多 的 压缩 率 。 

考虑 到 哈 夫 曼 编码 和 算术 编码 的 相对 性 能 ， 这 个 表 说 明 算术 编码 并 不 比 哈 夫 曼 编 码 好 多 
少 。 对 于 零 阶 模型 ， 三 个 文档 集 的 差异 每 字符 不 到 0. 04 位 。 对 于 更 高 阶 的 模型 ， 差 距 就 交 
大 了 “二 阶 模型 为 每 字符 0. 12 一 0. 33 位 ) ， 因 为 在 高 阶 模型 中 字符 的 概率 分 布 更 具有 倾斜 
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性 ， 因 此 更 有 利于 算术 编码 。 

但 是 ， 请 注意 表 6-2 中 的 数据 有 轻微 的 误导 性 ， 因 为 没有 考虑 压缩 模型 〈 哈 夫 曼 树 ) 所 占 
的 空间 。 例 如 ， 对 于 三 阶 压缩 模型 ， 在 对 实际 文本 数据 进行 编码 之 前 ， 需 要 传输 256 一 1680 
万 棵 哈 夫 曼 树 。 对 于 像 GOV2 这 样 的 大 文档 集 来 说 ， 这 么 做 还 值得 。 但 是 ， 对 于 像 莎 士 比 亚 文 
集 这 样 的 小 文档 集 来 说 就 不 是 这 样 了 。 因 此 ， 实 际 的 压缩 算法 在 处 理 有 限 个 上 下 文 模型 和 大 的 
字母 表 时 ， 都 使 用 自 适 应 的 方法 。 这 样 的 例子 有 PPM (部 分 匹配 预测 模型 ，Cleary 和 Witten, 
1984) 以 及 DMC (动态 马尔 可 夫 压 缩 方法 ; Cormack 和 Horspool, 1987), 

自 适应 方法 最 开始 使 用 一 个 初始 模型 〈 可 能 是 零 阶 模型 )， 然 后 基于 目前 已 有 数据 的 统 
计 信 息 逐 步 修正 压缩 模型 At。 实际 上 ， 这 样 的 方法 会 得 到 相当 不 错 的 结果 ， 接 近 于 半 静 态 
方法 ， 但 压缩 模型 不 需要 传送 给 解码 器 〈 因 此 比 半 静 态 方法 更 高 效 ) 。 

最 后 ， 表 中 将 相对 简单 的 基于 哈 夫 曼 编 码 或 算术 编码 的 压缩 技术 与 更 加 复杂 的 技术 如 
Ziv-Lempel (Ziv 和 Lempel, 1977; 也 称 为 gzip®) 以 及 Burrows-Wheeler (Burrows 和 
Wheeler, 1994; bzip2e ) 作 比 较 。 从 本 质 上 来 说 ， 这 些 方法 仍然 依赖 于 哈 夫 曼 或 算术 编 
码 ， 但 是 在 进入 编码 阶段 之 前 会 做 一 些 额 外 的 工作 。 从 表 中 可 以 看 出 ， 这 些 额 外 工作 都 带 来 
了 显著 的 压缩 效果 。 例 如 ，bzip2〈 有 参数 的 一 best) 能 够 将 这 三 个 文档 集中 的 文本 压缩 到 每 
字符 1. 1~-1.8 位 ， 与 最 原始 的 每 字符 使 用 8 位 编码 方法 相 比 ， 提 升 了 80% 。 这 个 结果 与 一 
般 的 假设 一 一 英文 文档 的 箭 在 每 字符 1 一 1.5 位 之 间 (这 个 范围 是 在 半 个 多 世纪 之 前 确定 的 
(Shannon，1951)) 一 一 是 一 致 的 。 


6.3 压缩 位 置信 息 列表 


已 经 讨论 了 一 些 通用 数据 压缩 的 原理 后 ， 我 们 可 用 这 些 原理 解决 倒 排 索引 压缩 的 问题 ， 
使 得 能 够 大 大 降低 存储 的 需求 。 正 如 第 4 章 提 到 的 〈 表 4. 1) ， 倒 排 索 引 中 的 数据 绝 大 部 分 
都 是 位 置信 息 数据 。 因 此 ， 如 果 想 减少 索引 整体 的 大 小 ， 在 处 理 索引 其 他 组 成 部 分 《如 词 
典 ) 之 前 ， 应 主要 考虑 位 置信 息 列表 的 压缩 。 

具体 使 用 什么 样 的 方法 来 压缩 给 定 索引 中 的 位 置信 息 取决 于 索引 的 类 型 〈 文 档 编号 索 
引 、 频 率 索引 、 位 置 索引 ， 还 是 模式 独立 索引 )， 但 是 不 同类 型 的 索引 之 间 也 有 共同 点 ， 这 
使 得 我 们 可 以 使 用 一 些 通 用 的 方法 来 处 理 它们 。 

考虑 下 面 这 个 整数 序列 ， 它 可 能 是 文档 编号 索引 中 某 个 词 项 的 位 置信 息 列 表 的 开头 部 分 : 

L = (3,7, 11, 23, 29, 37, 41,:--) 


使 用 标准 的 压缩 方法 ， 如 哈 夫 曼 编 码 来 直接 压缩 是 行 不 通 的 ; 列表 中 元 素 非常 多 ， 并 且 每 个 
元 素 仅 出 现 一 次 。 然 而 ， 由 于 工 中 的 元 素 形成 了 一 个 单调 递增 的 序列 ， 这 个 列表 可 以 转换 
成 一 个 等 价 的 序列 ， 相 邻 两 个 元 素 的 差 序 列 ， 称 为 A-value: 

A(L) = (3,4,4, 12,6,8,4,...) 
这 个 新 列表 A(L) 与 原始 列表 工 相 比 ， 有 两 大 优势 。 首 先 ，ACL) 中 的 元 素 比 工 中 的 要 小 ， 
这 意味 着 可 以 使 用 更 少 的 位 来 编码 。 其 次 ，A(L) 中 有 些 元 素 多 次 出 现 ， 意 味 着 可 以 根据 A 
value 在 列表 中 出 现 的 频率 来 给 它们 分 配 码 字 ， 从 而 进一步 节约 存储 空间 。 





© gzip Cwww.gzip.org) 在 初期 发 展 的 时 候 ， 由 于 Ziv_Lempel 的 使 用 受 专 利 的 限制 ， 所 以 gip 实际 上 不 是 基于 Ziv_ 
Lempel 压缩 方法 ， 而 是 基于 另 一 个 与 Ziv_Lempel 略 有 不 同 的 DEFLATE 算法 。 
© bzip2 Gwww.bzip.org) 是 可 免费 获得 ， 基 于 Burrows-Wheeler 转换 的 无 专利 限制 的 数据 压缩 软件 ， 
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以 上 转换 显然 适用 于 文档 编号 索引 和 模式 独立 索引 ， 但 它 同样 适用 于 基于 文档 的 位 置 索 
引 中 的 位 置信 息 ， 形 式 为 (d ,fi,a (pi,*…， Prano PWM, TAHIR: 
L = ((8, 2, (157, 311)), (7, 1, (212)), (11,3, (17, 38, 133)),---) 
可 以 转换 成 等 价 的 A-list 
A(L) = ((3, 2, (157, 154), (4, 1, (212), (4,3, (17, 21, 95), .. .) 
也 就 是 ， 每 一 个 文档 编号 用 它 与 前 一 个 文档 编号 的 间距 来 表示 ; 每 一 个 文档 内 偏 移 位 置 用 它 
与 前 一 个 文档 内 偏 移 位 置 的 间距 来 表示 ; 频率 值 不 变 。 
因为 3 个 结果 列表 中 值 的 概率 分 布 相差 很 大 《〈 比 如 ， 频 率 值 通常 要 比 文档 内 偏 移 位 置 小 
很 多 )， 所 以 通常 会 使 用 3 个 不 同 的 压缩 方法 ， 对 应 转换 之 后 的 Arlist 的 3 个 子 列 表 。 
倒 排 索引 中 的 位 置信 息 的 压缩 方法 一 般 可 分 为 两 类 : BRB Cparametric) 码 和 无 参数 
(nonparametric) 码 。 当 对 列表 中 的 位 置信 息 进 行 编码 时 ， 无 参数 码 通常 不 考虑 给 定位 置信 
息 列表 实际 的 间距 分 布 情况 。 相 反 ， 它 假定 所 有 的 位 置信 息 列表 看 上 去 都 差不多 一 样 ， 并 且 


.具有 一 些 共 同 的 性 质 一 一 例如 ， 小 的 间距 比 大 的 间距 更 常见 。 反 过 来 说 ， 在 压缩 之 前 ， 参 数 


码 会 分 析 待 压缩 位 置信 息 列表 的 统计 性 质 。 基 于 分 析 的 结果 ， 选 择 一 个 参数 值 ， 编 码 位 置信 
息 串 的 码 字 由 这 个 参数 决定 。 

根据 6. 2. 1 节 介绍 的 一 些 术语 ， 我 们 将 无 参数 码 称 为 静态 压缩 方法 ， 参 数码 为 半 静 态 方 
法 。 由 于 更 新 压缩 模型 所 带 来 的 复杂 性 ， 自 适应 方法 一 般 不 用 于 压缩 索引 。 


6.3.1 无 参数 间距 压缩 


最 简单 的 正 整 数 无 参数 码 是 一 元 码 (unary code) 。 在 这 种 码 中 ， 正 整数 用 一 1 个 0 后 面 

再 跟 一 个 工 的 串 来 表示 。 当 位 置信 息 列 表 中 A-value 服从 以 下 的 几何 分 布 时 ， 一 元 码 是 最 优 的 ， 
k 
Pr[A = k) = (5) (6-36) 

也 就 是 ， 长 度 为 十 1 的 间距 出 现 的 概率 是 长 度 为 k 的 间距 的 一 半 ( 见 6. 2.1, KENA. 
了 码 和 概率 分 布 之 间 的 关系 ) 。 对 于 倒 排 索引 中 的 位 置信 息 ， 这 个 概率 分 布 很 少 出 现 ， 除 最 
频繁 词 项 外 ， 如 “the” 和 “and”， 这 些 频繁 词 项 很 可 能 出 现在 每 一 个 文档 中 。 尽 管 如 此 ， 
一 元 编码 方法 在 索引 压缩 中 起 着 重要 作用 ， 因 为 其 他 的 一 些 压缩 技术 〈 如 下 面 要 介绍 的 y 编 
码 ) 都 依赖 于 它 。 

1. Elias 的 y 编码 

y 编码 是 最 早 介绍 对 正 整 数 进行 编码 且 是 比较 重要 的 无 参数 编码 方法 之 一 ， 由 Elias 
(1975) 首先 提出 。 在 y 编码 中 ， 正 整数 大 的 码 字 包 含 两 个 组 成 部 分 。 第 二 部 分 : 正文 
(body), BET k 的 二 进 制 表 示 。 第 一 部 分 :选择 器 (selector)， 包 含 了 正文 长 度 的 一 元 表 
示 。 例 如 ， 整 数 1、5、7 和 16 的 码 字 如 下 : 

k selector(k) body(k) 


1 1 1 
5 001 101 
7 001 111 
16 00001 10000 


你 可 能 注意 到 ， 在 上 面 这 个 表格 中 每 一 个 码 字 的 正文 都 是 以 1 开头 。 这 不 是 巧合 。 如 果 整 数 
k 的 选择 器 的 值 selector(k) 二 7 ， 那 么 可 得 2 广 ! 筷 hk<2i。 因 此 ， 在 这 个 数 的 二 进 制 表示 中 ， 
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第 j 个 不 显著 位 恰好 是 码 字 正文 的 第 一 位 ， 一 定 是 1。 当然 ， 这 也 意味 着 正文 中 的 第 一 位 实 
际 上 是 多 余 的 ， 可 以 删除 它 为 每 个 位 置信 息 节 省 一 位 。 这 样 ， 上 面 4 个 整数 的 y 码 字 分 别 
为 : 1C1), 001 01(5)，001 11(7) 00001 0000(16)。 
正 整 数 的 二 进 制 表示 包含 |log: (k)I+1 位 。 因 此 ， 在 y ek 的 码 字 长 度 为 : 
ly(k)| = 2+ Llogz(k)] + 1( 位 ) (6- 37) 
用 间距 分 布 的 术语 就 是 ， 这 意味 着 y 编码 对 于 符合 以 下 概率 分 布 的 整数 串 来 说 是 最 优 的 ，; 
1 


_ ~ 9~2-logg(k)-1 _ 
Pr[A = k| = 2 Ba (kr) = 5B 








(6-38) 


2.5 编码 和 w 编码 
当 压 缩 列表 中 小 间距 《比如 小 于 32〉 占 大 多 数 时 ,7 编码 是 比较 合适 的 ， 但 如 果 间 距 较 
大 ， 就 比较 浪费 了 。 对 于 这 样 的 列表 ，7 编码 的 一 种 变形 一 一 6 编码 会 是 一 个 更 好 的 选择 。5 
编码 与 7 编码 非常 类 似 。 然 而 ,5 编码 并 不 将 给 定 整数 的 选择 器 部 分 保存 为 一 元 形式 ， 而 是 
用 7 对 选择 器 进行 编码 。 因 此 ， 整 数 1、5、7 和 16 的 8 码 字 如 下 : 
k selector(k) body(k) 





1 1 

5 011 01 
7 01 1 11 
16 001 01 0000 


(所 有 情况 已 忽略 多 余 的 1) 。 整 数 16 的 选择 器 部 分 为 001 01， 因 为 这 个 数 的 二 进 制 表示 需要 
5 位 ，5 的 7 人 码 字 是 001 01. 
编码 中 整数 的 码 字 长 度 近似 为 2， logs(k)， 与 之 相 比 ， 对 于 同一 个 整数 ，6 编码 仅 需 : 
|6(k)} = [logz(k)| + 2- [loge({logy(k)| + 1)| 十 1( 位 ) (6- 39) 
其 中 第 一 部 分 来 自 于 码 字 的 正文 ， 第 二 部 分 是 选择 器 y 编码 的 长 度 。 如 果 位 置信 息 列表 中 的 
间距 满足 以 下 概率 分 布 ， 则 6 编码 是 最 优 的 ， 
Pr[A = k] œ 27 !e2(#)—20g9(loga(k))—1 — AON 
对 于 间距 很 大 的 列表 ,6 编码 的 效率 可 以 是 y 编码 的 两 倍 。 然 而 ， 实 际 的 索引 中 这 样 大 的 间 
有 距 是 很 少 出 现 的。 相反 ， Sy HEL. S 编码 通常 能 节省 15% ~35% 的 空间 。 人 例如， 整数 2". 
22 、22 的 y 码 字 长 度 分 别 为 21、41 和 61 位 。 而 对 应 的 6 码 字 长 度 分 别 为 17、29 和 39 位 
(—19% , —29%, —36%). 
6 编码 对 给 定 码 字 的 选择 器 使 用 y 编码 的 思想 ， 也 可 以 递归 应 用 ， 产 生 了 一 种 叫做 w 编 
码 的 技术 。 正 整数 k No 码 构造 步 又 如 下 : 
1) 输出 0。 
2) WẸ k=1, 停止。 
3) 否则 ， 将 编码 为 二 进 制 形式 (包括 首位 1) ， 并 将 其 扩展 到 已 写 人 位 的 前 面 。 
4) k<([log,¢(k) J, 
5) 跳 回 到 第 2) 步 。 
例如 ， 天 一 16 Hw BH 


(6-40) 


| 10 100 10000 0 (6-41) 
因为 16 的 二 进 制 表示 为 10 000, 4(=[ log, (16)) 的 二 进 制 表 示 为 100，2( 二 | log (Llog: 
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(16))) 的 二 进 制 表示 为 1。 整 数 Ke BM co 码 字 长 度 近似 为 : 
Iw(k)| = 2 + log2(k) + loga(loga(k)) + logs (logs (loga(k))) +++: (6-42) 


K 6-3 列 出 了 几 个 整数 的 y 码 字 、8 码 字 和 w 码 字 。 当 整数 n 宇 32 时 ,6 编码 比 y 编码 的 空 
间 效 率 更 高 。 当 整数 "之 128 时 ，o 编码 比 7 编码 效率 更 高 。 


表 6-3 使 用 多 种 无 参数 码 来 编码 正 整数 


整数 7 编码 6 编码 w 编码 
1 1 1 0 
2 010 0100 10 0 
3 011 0101 110 
4 001 00 01 100 10 100 0 
5 001 01 01 101 10 101 0 
6 001 10 01 110 10 110 0 
7 001 11 O11 11 10 111 0 
8 0001 000 001 00 000 11 1000 0 
16 00001 0000 001 01 0000 10 100 10000 0 
32 006001 00000 001 .10 00000 10 101 100000 0 
64 0000001 000000 001 11 000000 10 110 1000000 0 
127 0000001 111111 001 11 111111 10 110 1111111 0 
128 00000001 0000000 0001 000 0000000 10 111 10000000 0 


6.3.2 参数 间距 压缩 

无 参数 码 的 缺点 在 于 没有 将 待 压 缩 列表 的 特殊 特征 考虑 进去 。 如 果 给 定 列表 的 间距 满足 
码 中 暗含 的 概率 分 布 ， 那 么 一 切 就 很 好 办 了 。 然 而 ， 如 果实 际 间距 的 分 布 与 暗含 的 那个 是 不 
一 样 的 ， 那 么 无 参数 码 就 很 浪费 了 ， 这 时 应 用 参数 方法 来 代替 。 

参数 压缩 方法 可 以 分 为 两 类 : 全 局 (global) 方法 和 局 部 (local) 方法 。 全 局 方法 对 索 
引 中 的 所 有 倒 排列 表 都 使 用 同一 个 参数 值 。 局 部 方法 为 索引 中 的 每 一 个 列表 都 选择 一 个 不 同 
的 参数 值 ， 或 者 甚至 为 给 定 列 表 中 的 每 一 个 位 置信 息 块 选 择 不 同 的 参数 值 ， 其 中 每 一 个 块 一 
般 由 几 百 或 几 千 个 位 置信 息 组 成 。 你 可 以 回忆 一 下 4. 3 节 ， 每 一 个 位 置信 息 列表 中 包含 一 系 
列 的 同步 点 帮助 我 们 能 够 随机 访问 这 个 位 置信 息 列 表 。 同 步 点 很 自然 地 可 用 于 基于 块 的 列表 
压缩 (实际 上 ， 这 也 是 同步 点 命名 的 来 由 ); 每 个 同步 点 对 应 着 一 个 新 块 的 开始 。 对 于 一 个 
异 构 的 位 置信 息 列 表 ， 列 表 中 的 不 同 部 分 具有 不 同 的 统计 特征 ， 基 于 块 的 压缩 方法 能 够 显著 
地 提升 整体 压缩 效果 ， 

在 大 多 数 场 合 中 ， 局 部 方法 能 够 比 全 局 方法 获得 更 好 的 结果 。 然 而 ， 对 于 非常 短 的 列 
表 ， 选 择 局 部 方法 有 可 能 会 使 存储 参数 的 开销 比方 法 本 身 节 省 的 空间 还 大 ， 特 别 是 如 果 参 数 
好 像 一 棵 哈 夫 曼 树 一 样 复杂 的 时 候 。 这 种 情况 下 ， 选 择 一 个 全 局 方法 或 对 拥有 同一 性 质 〈 例 
如 相似 的 平均 间距 大 小 ) 的 所 有 列表 都 使 用 同样 参数 值 的 批 (batched) 方法， 可 能 会 更 好 。 

因为 选择 的 参数 被 认为 是 压缩 模型 的 一 个 简要 描述 ， 所 以 局 部 和 全 局 方法 之 间 的 关系 是 
我 们 在 6. 1 节 中 讨论 的 通用 数据 压缩 技术 中 建 模 和 编码 之 间 关 系 的 一 个 特例 ， 何 时 停止 建 模 
以 及 何 时 开始 编码 ? 选择 局 部 方法 会 得 到 一 个 更 精确 的 模型 ， 准 确 描述 了 给 定 列表 中 的 间距 
描述 。 选 择 全 局 方法 (或 批 方法 ) 则 得 到 一 个 没有 那么 精确 的 模型 ， 但 减 小 了 模型 〈 分 摊 
的 ) 规模 ， 因 为 大 量 的 列表 使 用 同样 的 模型 。 
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1. Golomb/Rice 编码 

假设 我 们 想 压 缩 一 个 列表 ， 它 的 A-value 满足 几何 分 布 (geometric distribution), the 
Æ, BEKSA k 的 概率 为 : 

Pr[A = k] = (1—p)** -p (6-43) 

其 中 p 是 0 一 1 之 间 的 常数 。 在 倒 排 索引 中 ， 这 是 一 个 实际 的 假设 。 考 虑 一 个 包含 N 个 文档 
的 文档 集 ， 词 项 T 出 现在 其 中 Nr 个 文档 中 。 随 机 地 从 文档 集中 挑选 一 个 文档 ， 找 到 词 项 
T 的 概率 为 Nr/N。 因 此 ， 在 这 个 假设 下 ， 所 有 文档 都 是 彼此 独立 的 ， 词 项 两 次 相 邻 出 现 的 
WEBEX k 的 概率 为 : 


六 三 (1 3 y Masa (6-44) 
也 就 是 ， 当 T 出现 -次 后 ， 接 下 来 是 k-1 个 不 包含 T 的 文档 (每 一 个 的 概率 是 1 一 人 )， 


然后 再 是 一 个 包含 人 的 文档 〈 概 率 是 和 AF) 。 这 样 可 以 得 到 -个 pT RJL A. 


图 6-5 展示 了 某 一 满足 p=0.01 的 词 项 的 (几何 ) 间距 分 布 。 图 中 也 给 出 了 当 我 们 根据 
A-value 的 位 长 len(k) =Llog: (kK) J+1 把 它们 分 到 不 同 的 桶 中 然后 计算 每 个 桶 的 概率 ， 得 到 
的 概率 分 布 情况 。 图 中 ， 有 65% 的 间距 值 满足 6 委 len(K) 委 8。 由 此 得 到 以 下 编码 过 程 : 


a) 原始 间距 大 小 分 布 b 位 长 分 布 〈 即 将 每 一 个 问 距 编码 为 二 进 制 所 需要 的 位 数 ) 


20 


概率 (%) 





0 100 200 300 400 500 0 2 4 6 8 10 
A-value 的 大 小 i A 的 二 进 制 长 度 :| log (A) J +1 


图 6-5 满足 3 一 0.01 的 位 置信 息 列 表 的 分 布 情况 ( 即 词 项 工 出 现在 1% 的 文档 中 )。 


1) 选 择 一 个 整数 M 作为 模 (modulus) 。 
2) 将 每 个 Arvalue k 分 成 两 部 分 , 商 9Ck) 和 余数 Ck): 
a(k) = |(k -—1)/M], r(k) =(k—1) mod M 

3) 将 q(k)+1 写成 一 元 表示 , 后 面 再 跟 上 7(k) 的 [logz (M) 或 [logs (M) ] 位 的 二 进 制 
表示 ， 从 而 将 编码。 

对 于 图 6-5 中 显示 的 概率 分 布 ， 我 们 选择 M 王 27 。 只 有 少数 的 A-value 比 2 大 ， 所 以 大 
部 分 位 置信 息 所 对 应 的 商 gC(%) 仅 需 不 到 3 位 。 相 反 地 ， 只 有 少数 的 A-value H 2 小 ， 这 意 
味 着 分 配给 每 个 余数 rk)? 位 只 有 一 小 部 分 是 浪费 的 。 

对 于 任意 模 M， 上 述 的 一 般 化 的 编码 过 程 ， 被 称 为 Golomb 编码 (Golomb coding)， 以 它 的 
提出 者 Solomon Golomb (1966) 的 名 字 命 名 。 如 果 M 取 值 为 2 的 赛 ， 那 么 这 种 编码 方法 被 称 为 
Rice 编码 (Rice coding) ， 也 是 以 它 的 提出 者 Robert Rice (1971) 的 名 字 命 名 的 。9 





O 严格 地 说 ，Rice 并 没有 发 明 Rice 编码 一 一 它 只 是 Golomb 编码 的 一 个 子 集 ， 并 且 Golomb 的 研究 成 果 比 Rice BER 5 年 发 
表 。 但 是 ，Rice 的 工作 使 得 Golomb 编码 特别 适合 实际 应 用 ， 这 也 是 Rice 通常 也 记 为 这 组 编码 方法 的 发 明 者 的 原因 。 
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让 我 们 看 一 个 实例 。 假 定 现在 选择 模 M=2', BOR k=345 编码 。 得 到 的 Rice 

码 字 为 
Ricew =27 (345) = 001 1011000 
因为 ，g (345) 二 | (345 一 1)/2? |=2, r(345)=(345—1)mod 27 =88, 

可 以 很 容易 地 对 一 个 给 定 的 码 字 进行 解码 。 对 于 原始 位 置信 息 列表 中 的 每 个 位 置信 息 ， 
首先 找到 码 串 中 的 第 一 个 1 位 ， 从 而 获得 9CK) 。 然 后 从 位 串 中 移 除 前 gCk) 十 1 位 ， 抽 取出 
接 下 来 的 〈 入 =| log:(CM)] 位， 然后 获得 7Ck) 并 计算 k: 

k = q(k)-2*+r(k) +1 (6-45) 
从 效率 来 讲 ， 与 2^ 相 乘 通常 是 通过 移 位 操作 来 实现 。 

遗憾 的 是 ， 上 面 介绍 的 简单 的 编码 /解码 过 程 只 适用 于 Rice 编码 ， 却 不 适用 于 M 不 
是 2 MIRRI Golomb 编码 。 我 们 给 每 个 余数 r ODEN loge (MD ] 位 ， 但 仅 有 M 过 20401 个 
可 能 的 余数 ， 码 空间 的 一 部 分 未 被 使 用 ， 因 此 不 是 一 个 最 优 码 。 实 际 上 ， 如 果 不 管 M 的 
值 ， 给 每 个 余数 都 分 配 | log, CM) | 位， 得 到 的 Golomb 码 总 是 比 参 数 为 M' 一 20oec01 的 Rice 
BEZ. 

车 要 利用 码 空间 的 未 被 使 用 部 分 ， 可 以 将 一 部 分 余数 用 | log, (MD 位 编码 ， 剩 下 的 用 
| log CM) | 位 编码 。 哪 些 余数 的 码 字 应 该 短 一 些 ， 哪 些 余数 


的 码 字 应 该 长 一 些 ? 因 为 Golomb 编码 方法 基于 的 假设 是 A ,AN 
value 满足 几何 分 布 〈 公 式 6- 44)， 我 们 希望 小 间距 比 大 间距 O 
出 现 的 概率 要 高 。 因 此 ， 余 数 7Ck) 的 码 字 可 以 如 下 分 配 ， y/u of N 
。 在 区 间 [0,2eecaoi 一 M 一 ]] 内 的 长 度 为 Llogz (MI. OOo O 
。 在 区 间 [Zoo1 一 M,M 一 菇 内 的 长 度 间 log (MD) ] 位 。 of NI of\i 
图 6-6 可 视 化 了 M=6 的 Golomb 编码 机 制 。 满足 0 去 @ 
rR) <2 的 余数 得 到 的 码 字 长 度 为 Llogs (6)J 一 2; SLAB oe 6.6 S M6 的 Golomb 编 
TAFE AT logz(6) 1 二 3。 从 稍微 不 同 的 角度 观察 这 个 方法 ， 码 中 ,余数 0 过 7Ch) 二 6 


我 们 可 以 说 M 个 不 同 余数 的 码 字 是 根据 范式 哈 夫 曼 码 OL 的 得 
图 6-3) 分 配 的 。 表 6-4 展示 了 在 不 同 的 M (FASEB RK 
的 Golomb/Rice M., 


表 6-4 用 带 参数 的 Golomb/Rice 编码 方法 对 正 整 数 (如 A-gap) 编码 。 每 个 码 字 的 第 
一 部 分 对 应 商 9( 天 ) ， 第 二 部 分 对 应 余数 r( 大 ) 

















整数 Golomb 编码 Rice 编码 

一 | M=3 Mee | M=7T7 M=4 T M=8 

1 10 1 00 100 1 00 1 000 
2 110 101 1 010 101 1 001 
3 111 1 100 1 011 110 1 010 
4 01 0 1 101 1 100 111 1011 
5 01 10 1110 1 101 01 00 1 100 
6 0111 1111 1110 01 01 1101 
7 001 0 01 00 1111 01 10 1110 
8 001 10 01 01 01 00 01 11 1 111 
9 001 11 01 100 01 010 001 00 01 000 
31 00000000001 0 000001 00 00001 011 00000001 10 0001 110 
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与 相对 简单 的 Rice 编码 相 比 ，Golomb 编码 的 压缩 率 稍微 好 一 点 ， 但 比较 复杂 。Rice 解 
码 融 处 理 的 r(k) 码 字 都 是 一 样 长 的 ， 只 需要 简单 位 移 就 可 以 解码 ， 而 Golomb 解码 器 需要 
区 别 不 同 长 度 的 ?+(K) 码 字 ( 导 致 分 支 预 测 错误 )， 由 于 M 不 是 2 的 寡 ， 还 需要 执行 相对 耗 
时 的 整数 乘法 操作 。 因 此 ，Rice 解码 器 通常 比 Golomb 解码 器 快 20% ~40% 。 

2. 寻找 最 优 的 Golomb/Rice 参数 值 

一 个 我 们 尚未 讨论 的 问题 就 是 : 如 何 选 择 模 M 使 得 平均 码 字 长 度 最 小 。 回 想 一 下 
6. 2. 1 节 介 绍 的 内 容 ， 给 定 概 率 分 布 M， 如 果 对 于 两 个 符号 o 和 om ， 满 足以 下 关系 的 码 C 是 
最 优 的 : 

IC(o1)| = |C(o2)| +1 (6-46) 

则 


M(o1) = 5 M(o2) (6-47) 


我 们 知道 整数 k+M 的 Golomb 码 字 比 整数 的 要 多 出 1 位 (因为 gCk 十 M) 一 q(k) 十 1)。 
因此 ， 最 优 参 数值 M 应 该 满足 如 下 的 公式 : 


Pr|A =k + M*] = -Pr[A =k] @ (1 Nr/N tT = 


* ~~ log(2) 
> M = eda Nr/N) 


.(-Nr/N) 
(6-48) 


1 
2 


RHE, M* 通常 都 不 是 整数 。 对 于 Rice 编码 ， 我 们 在 M= 20 8] ay M= 2i 之 
间 进 行 选择 。 对 于 Golomb 编码 ， 我 们 在 M=LM* lA M 一 LM ”之 间 进 行 选择 。 一 般 来 
说 ， 不 能 确定 哪个 值 更 好 。 有 时 某 个 值 可 以 得 到 更 好 的 码 ， 但 有 时 使 用 其 他 的 值 可 以 得 到 更 
好 的 码 。Gallager 和 van Voorhis (1975) 证 明了 


_ | log(2 — Nr/N) 
Men =| | (6-49) 
总 是 可 以 产生 最 优 码 。 
作为 一 个 例子 ， 考 虑 一 个 出 现在 50 多 文档 中 的 词 项 。 我 们 有 Nr/N=0.5， 因 此 : 
Mon = [—log(1.5)/ log(0.5)]  [0.585/1.0] = 1 (6-50) 


这 个 例子 中 的 最 优 Golomb/Rice 码 ， 正 如 所 预计 的 一 样 ， 是 一 元 码 。 

3. RARE: LLRUN 

如 果 给 定 的 列表 中 的 间距 不 满足 几何 分 布 一 一 人 例如， 文档 间 独立 性 假设 不 成 立 ， 或 列表 
不 是 简单 的 文档 编号 列表 一 一 Golomb 编码 不 会 得 到 很 好 的 结果 。 

我 们 已 经 知道 一 个 对 任意 分 布 的 列表 都 适用 ， 且 可 以 达到 最 优 压缩 率 的 压缩 方法 PAK 
曼 编码 ( 见 6. 2. 2 节 ) 。 遗 憾 的 是 ， 哈 夫 曼 方法 很 难 直 接 用 于 给 定 的 A-value 序列 。 难 度 在 
于 一 个 典型 的 位 置信 息 列表 中 不 同 间 有 距 的 集合 大 小 与 列表 本 身 是 一 样 的。 例如 ， 在 TREC45 
文档 集中 ， 词 项 “aquarium” 出 现在 149 个 文档 中 。 它 的 文档 编号 列表 中 包含 147 个 不 同 的 
A-value。 用 哈 夫 曼 方法 编码 这 个 列表 不 太 可 能 会 大 幅 减 少 列表 的 长 度 ， 因 为 这 147 个 不 同 
的 A-value 还 需 存 储 在 前 言 《 比 如 哈 夫 曼 树 中， 以便 让 解码 器 知道 哈 夫 曼 码 的 间距 串 中 的 
码 字 对 应 哪 一 个 A-value。 

不 直接 对 于 间距 值 使 用 哈 夫 曼 编码 ， 先 将 相似 大 小 的 间距 放 进 不 同 的 桶 中 ， 同 一 个 桶 中 
的 间距 共用 一 个 哈 夫 曼 码 字 。 例 如 ， 假 设 区 间 [2i ,2 让! 一 1] 内 的 所 有 间距 都 有 相同 概率 ， 可 
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LAGI Bo. Bly cee > WE Bi 一 [21 ,2 和 + 一 1]。 桶 Bi 中 所 有 的 A-value 都 共用 同一 个 哈 
夫 曼 码 字 w;。 它 们 的 编码 形式 就 是 w;， 后 面 跟 对 应 的 间距 值 的 j 位 二 进 制 表 示 CARTES 
的 1， 因 为 它 暗 舍 在 w 中 )。 

这 个 压缩 方法 被 称 为 LLRUN， 由 Fraenkel 和 Klein (1985) 提出 。 虽 然 没 有 使 用 一 元 
编码 选择 器 的 值 (整数 了 定义 给 定 A-value 所 在 的 桶 )， 但 根据 最 少 宛 余 的 哈 夫 曼 码 ， 这 种 
方法 和 Elias 的 y 方法 非常 相似 。LLRUN 比 最 原始 的 哈 夫 曼 方 法 好 的 地 方 在 于 ， 使 用 桶 的 
技术 能 够 显著 地 减少 需要 建立 哈 夫 曼 树 的 符号 集 的 大 小 。 甚 至 在 模式 独立 索引 中 ，A-value 
也 很 少 大 于 2*。 因 此 ， 对 应 的 哈 夫 曼 树 最 多 有 40 个 时 子 节点 。 用 一 个 范式 限 长 的 哈 夫 曼 码 
和 每 码 字 长 度 上 二 15 的 限制 〈 见 6. 2. 2 节 中 限 长 的 哈 夫 曼 码 的 详细 介绍 ) ， 这 个 码 用 4X40 
二 160 位 就 能 表示 。 并 且 ， 除 了 很 小 的 j 值 外 ， 同 一 个 桶 B; 中 间距 值 出 现 概 率 大 致 相等 这 
一 假设 也 符合 索引 中 数据 反映 的 事实 。 因 此 ， 压 缩 效 果 并 没有 因为 将 相似 大 小 的 间距 放 人 和 人 桶 
中 和 让 它们 共享 同一 个 哈 夫 曼 码 而 变 差 。 


6.3.3 上 下 文 感知 的 压缩 方法 


目前 讨论 的 方法 都 将 位 置信 息 列 表 中 的 间距 视 为 是 彼此 独立 的 。 在 6. 1 节 中 ， 我 们 看 到 
有 时 通过 考虑 待 编码 符号 之 间 的 上 下 文 关系 可 以 提高 压缩 方法 的 效率 。 在 这 里 使 用 同样 地 想 
法 。 有 了 时 同一 词 项 的 相 令 出现 会 形成 艇 (在 小 部 分 文本 中 大 量 出 现 同一 词 项 )。 对 应 的 位 置 
信息 就 会 非常 接近 ，A-value 就 比较 小 。 能 够 正确 反映 这 种 现象 的 压缩 方法 能 比 无 法 反映 这 
种 现象 的 方法 达到 更 好 的 压缩 率 。 

1. ABB: 有 限 上 下 文 LLRUN 

很 容易 调整 上 述 LLRUN 方法 使 之 能 够 在 编码 当前 A-value 时 考虑 前 一 个 A-value。 这 
里 不 使 用 原版 LLRUN 中 的 零 阶 模型 ， 而 是 采用 一 阶 模 型 ， 当 前 间 且 选择 器 的 码 字 w; 依赖 
于 前 一 个 间距 选择 融 的 值 ， 用 大 约 40 棵 不 同 的 哈 夫 曼 树 (假设 没有 A-value 大 于 24)， 每 一 
个 对 应 一 个 可 能 的 前 面 的 值 。 

这 种 方法 的 缺点 在 于 需要 编码 器 传输 40 棵 不 同 的 哈 夫 曼 树 的 描述 ， 而 不 仅仅 是 1 棵 ， 
这 会 增加 压缩 列表 的 空间 需求 。 然 而 实际 上 ， 使 用 40 棵 不 同 的 哈 夫 曼 树 也 不 比 仅 用 几 棵 哈 
KRSM (例如 2 一 3 棵 ) 更 有 优势 。 我 们 将 这 改进 后 的 LLRUN 方法 称 为 LLRUN-k, Hp 
k 指 编码 器 /解码 器 使 用 的 不 同 模型 〈 即 哈 夫 曼 树 ) 的 个 数 。 

图 6-7 给 出 了 LLRUN-2 的 编码 算法 。 图 中 清晰 地 显示 了 闭 值 参数 9 可 由 算法 自动 选择 ， 算 
法 在 0<3< log, (max ,{A(L)[1]}) 之 间 尝 试 所 有 可 能 的 值 ， 并 选择 一 个 最 小 化 列表 压缩 大 小 的 值 。 
注意 到 并 不 需要 编码 器 真正 将 整个 列表 压缩 @(log(max;{A(D)[)) 次 ， 只 需要 分 析 跟 在 By 中 的 
A-value 后 的 每 个 桶 B; 中 的 A-value 的 频率 。 该 分 析 的 时 间 复 杂 度 为 @(log(max,{A(DD[i]))”) 。 

2. 插值 编码 

另 一 种 上 下 文 感知 压缩 技术 是 由 Moffat 和 Stuiver (2000) 提出 的 插值 编码 (interpola- 
tive coding) 方法 。 与 其 他 列表 压缩 方法 一 样 ， 捅 值 编 码 也 是 基于 给 定 的 倒 排 索 引 列 表 中 的 
位 置信 息 是 按 升 序 存储 这 一 事实 ， 但 是 它 的 做 法 略微 不 同 。 

考虑 在 TREC45 文档 集 的 文档 编号 索引 中 词 项 “example” 的 位 置信 息 列 表 工 的 起 始 
部 分 : 

工 一 (2,9,12,14,19,21,31,32,33》 
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encodeLLRUN-2 ((L[1],..., Lln)); 9, output) = 
定义 A(L) AIE (L[1], L[2] — Lflj,..., Lin) — Lin ~ 1}) 
Amas  maxi{A(L)|[é]} 
初始 化 数组 bucket Frequencies(0..1](0..[logo(Amaz) || HE 
c0 // 用 于 有 限 上 下 文 建 模 的 上 下 文 
fori 一 Ttondo // 收集 特定 上 下 文 统计 值 
b — |log,(A(L)[i])] // Af A-value 的 下 角 
bucketFrequencies|{c][b] — bucketFrequencies(c](b] + 1 
ifb < V then c — 0 else c — 1 
9 for i — 0 to l do // 建 立 两 棵 哈 夫 曙 树 ， 每 个 上 下 文 一 棵 
10 T; — buildHuffmanTree(bucketFrequencies|i]) 
11 c0 // 重 置 上 下 文 
12 for i — 1 tondo // 压缩 位 置信 息 
13 b — [ioga (A(2)[i])] 
14 AEM T., 把 5 的 哈 夫 曼 码 字 写 到 output 





Cr 


把 A(I) 四 以 5 位 二 进 制 形式 写 到 output (忽略 第 1 个 工 ) 
16 ifb < V then c — 0 elsec e 1 
17 return 





图 6-7 LLRUN-2 的 编码 算法 ， 使 用 两 棵 不 同 哈 夫 曼 树 的 LLRUN 有 限 上 下 文 方法 。 
BABS 8 定义 了 可 能 的 上 下 文 二 元 分 割 


插值 方法 首先 使 用 其 他 的 压缩 方法 ， 如 7 编码 ， 对 这 个 列表 的 第 一 个 元 素 编码 为 工 [1 一 2， 
最 后 一 个 元 素 编码 为 LL9] 一 33。 然 后 编码 LL51 二 19。 可 是 ， 当 编码 LOSI, MARCA 
知道 LI] 和 工 [9]。 由 于 所 有 的 位 置信 息 都 是 严格 递增 的 ， 所 以 能 保证 下 面 的 式 子 成 立 ， 
2=L[1]<L[21<…<L[5]<…<LL8]<LL9]=33 
因此 ， 根 据 列表 中 包含 9 个 元 素 这 个 信息 ， 以 及 工 L1] 和 工 [9] 的 值 ， 我 们 能 确定 LIKH 
位 于 区 间 [6,29] 内 。 因 为 这 个 区 间 中 包含 的 元 素 不 超过 个 至 一 32 个 ， 所 以 工 [5] 可 以 用 5 个 
位 来 编码 。 接 着 算法 递归 地 处 理 ， 编 码 LL4j 使 用 4 位 《因为 根据 LL1j 和 LL5j 的 值 可 知 ， 
工 [3] 一 定位 于 区 间 [4,17] 内 )， 编 码 LL2j 使 用 4 位 《因为 它 一 定位 于 [3,11J 内 )， 以 此 类 推 。 
图 6- 8 给 出 了 插值 方法 编码 步骤 的 更 形式 化 的 定义 。 表 6- 5 中 给 出 了 使 用 插值 编码 方 
法 压缩 列表 得 到 的 位 串 结果 。 有 必要 指出 的 是 ,， 工 [8]= 32 不 用 编码 ， 因 为 LL7]==31， 
工 [9] 一 33 使 得 工 [8] 只 有 一 个 可 能 的 值 。 





















encodelnterpolative ((L[1],...,L[n]}, output) = 

1 encodeGamma (n) 

2 encodeGamma (L[1], output) 

3 encodeGamma (Lln] — L[1], output) 

4 encodelnterpolativeRecursively ((L[1],...,L[n]), output) 
encodelnterpolativeRecursively ((L[1],...,L[n]), output) = 

5 if n < 3 then 

6 return 

7 middle — [n/2] 

8 firstPossible — LIi] + (middle — 1) 


9 lastPossible — Lin] + (middle — n) 

10 k — flog, (lastPossible — firstPossible + 1)] 

11 ”把 (LImiddle] 一 firstPossible) 以 k 位 二 进 制 形 式 写 到 output 

12 encodeInterpolativeRecursively ({L[1],...,Llmiddle]), output) 
13 encodeInterpolativeRecursively ((L[middle],..., L[n]), output) 


图 6-8 使 用 插值 编码 方法 压缩 位 置信 息 列 表 ( 工 LI ,，……, 工 L%])。 产 生 的 位 
HE Al output 变量 中 








在 使 用 Golomb 编码 的 时 候 ， 图 6-8 中 由 firstPossible 和 lastPossible 定义 的 间距 很 少 
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是 2 BR. 因此， 将 区 间 中 每 一 个 可 能 的 值 都 编码 为 有 位 ， 会 浪费 一 些 码 空间 。 和 前 面 一 
样 ， 这 个 缺点 可 以 使 用 这 种 方法 来 解决 ; 2*—=— (lastPossible — firstPossible +1) 个 可 能 
值 使 用 一 1 位 编码 ， 其 余 的 值 用 k 位 来 编码 。 由 于 这 个 机 制 比较 简单 ， 图 6- 8 就 没有 显示 
出 来 。 相 关 的 细节 可 以 在 6. 3. 2 节 中 关于 Golomb 编码 的 介绍 中 找到 。 


表 6-5 在 词 项 “example” 的 文档 编号 列表 的 前 9 个 元 素 上 使 用 插值 编码 方法 得 到 的 
结果 {数据 来 源 于 TREC45) 





位 置信 息 位 置信 息 压缩 后 位 串 
《原始 顺序 》 《访问 顺序 ) 
(n=9) (n= 9) 0001001 (y B#n=9) 
2 2 010 (y 码 字 2) 
9 33 000011111 (y 码 字 31= 33 一 分 
12 19 01101 (13 = 19 — 6 是 5 位 二 进 制 数 ) 
14 12 1000 (8 二 12 一 4 是 4 位 二 进 制 数 ) 
19 9 0110 (6 = 9 一 3 是 4 位 二 进 制 数 ) 
21 14 001 (1 = 14-13 是 3 位 二 进 制 数 ) 
31 31 1010 (10 = 31 一 21 是 4 位 二 进 制 数 ) 
32 21 0001 (1 = 21 一 20 是 4 位 二 进 制 数 ) 
33 32 (0 = 32 一 32 是 0 位 二 进 制 数 ) 


不 像 Golomb 编码 ， 我 们 无 法 确定 (lastPossible 一 firstPossible +1) 个 值 中 哪些 出 现 
的 可 能 性 更 高 。 因 此 ， 不 知道 哪些 值 应 该 分 配 k 位 的 码 字 ， 哪 些 值 应 该 分 配 一 1 位 的 码 
学 。Moffat 和 Stuiver (2000) 建议 给 位 于 区 间 [ firstPossible ,lastPossible] 中 间 位 置 的 值 分 
配 更 短 的 码 字 ， 除 非 这 个 区 间 仅 包含 一 个 位 置信 息 〈 对 应 函数 encodeInterpolativeRecur- 
sively 中 的 % 二 3)， 在 这 种 情况 下 ， 他 们 建议 给 区 间 的 两 个 端点 分 配 较 短 的 码 字 ， 从 而 可 利 
用 潜在 的 聚 艇 效果 。 实 验 表 明 这 种 策略 能 够 使 每 个 位 置信 息 平均 节约 0.5 位 。 


6.3.4 高 查询 性 能 的 索引 压缩 


将 位 置信 息 列 表 以 压缩 形式 存储 有 两 个 理由 。 首 先 ， 它 能 够 减少 搜索 引擎 索引 所 占 的 空 
间 。 其 次 ， 作 为 一 个 附加 效应 ， 它 能 够 减少 查询 阶段 的 磁盘 WO 开销 ， 从 而 能 够 提升 查询 
性 能 。 前 面 章节 讨论 的 压缩 方法 都 是 为 了 前 者 ， 而 忽略 了 查询 阶段 要 执行 的 解码 操作 的 复 
2k] 

当 在 两 种 不 同 的 压缩 方法 A 和 B 之 间 做 选择 时 ， 为 了 获得 最 好 的 查询 性 能 ， 一 个 比较 
好 的 经 验 法 则 是 : 考虑 存放 索引 的 存储 介质 〈 如 计算 机 硬盘 ) 的 读 取 性 能 ， 比 较 每 个 方法 的 
解码 开销 。 例 如 ， 硬 盘 可 以 以 每 秒 5000 万 字 节 (二 4 亿 位 ) 的 速率 传输 位 置信 息 。 如 果 方 
法 A 与 方法 B 相 比 , 平均 每 个 位 置信 息 少 用 1 位 ， 并且 每 个 位 置信 息 的 解码 开销 比 B 少 
2.5 ns《〈 即 从 硬盘 中 读 取 一 位 的 时 间 )， 那 么 A 比 B 优 。 反 过 来 ， 如 果 相 应 的 开销 多 2. 5 ns, - 
AA BE. 

2.5 ns 算 不 上 很 长 的 时 间 ， 特 别 是 对 现代 的 微 处 理 器 来 说 。 根 据 CPU 的 时 钟 频率 ， 它 
可 以 等 于 2 一 10 个 CPU 周期 。 因 此 ， 即 使 方法 A 的 每 个 位 置信 息 比 方法 B 少 占 好 几 位 ， 它 
的 解码 流程 也 必须 非常 的 高 效 以 获得 查询 性 能 上 的 绝对 优势 。 

虽然 上 面 的 经 验 法 则 没有 考虑 可 以 使 用 并 行 的 1/O 操作 对 压缩 列表 解码 或 在 内 存 中 组 
存 位 置信 息 列表 的 可 能 性 ， 但 是 ， 当 需要 对 比 两 个 压缩 方法 对 搜索 引擎 查询 性 能 的 影响 时 ， 
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这 个 法 则 可 以 作为 一 个 很 好 的 着 手 点 。 正 如 在 6. 3. 6 节 中 我 们 将 看 到 的 ， 目 前 讨论 的 压缩 方 
法 不 一 定 会 得 到 最 优 的 查询 性 能 ， 因 为 它们 的 解码 流程 相当 复杂 和 耗 时 。 接 下 来 介绍 两 个 专 
门 设计 的 用 于 高 解码 吞吐 量 的 方法 。 

1. 字 节 对 章 编 码 

字 节 对 齐 间 距 压 缩 是 可 用 的 最 简单 的 压缩 方法 之 一 。 它 被 广泛 使 用 部 分 是 由 于 它 简 单 ， 
但 大 部 分 是 由 于 它 具 有 高 效 的 解码 性 能 。 考 虚词 项 “aligned” 的 位 置信 息 列 表 的 起 始 部 分 ， 
它 是 从 GOV2 文档 集 的 文档 编号 索引 中 抽取 出 来 的 。 

L = (1624, 1650, 1876, 1972, -- -) 
A(L) = (1624, 26, 226, 96, 384, ---) 

为 了 避免 耗 时 的 位 提取 操作 ， 我 们 使 用 整数 个 字 节 来 编码 每 一 个 A-value。 最 简单 的 做 法 就 
是 将 每 一 个 A-value 的 二 进 制 表示 分 割 成 7 位 的 块 ， 并 且 在 每 一 个 块 前 面 加 一 个 延续 标志 
(continuation flag) 一 一 一 个 用 来 指示 当前 块 是 否 是 最 后 一 个 块 的 位 。 这 种 方法 称 为 vByte 
(可 变 字 节 (〈variable-byte) 编码 ) 。 不 仅 是 搜索 引擎 ， 很 多 应 用 中 都 使 用 这 种 方法 。 以 上 文 
档 编 号 列表 的 vByte 编码 形式 (为 了 方便 阅读 插入 了 空格 ) 为 : 


1 1011000 0 0001100 0 0011010 1 1100010 0 0000001 0 1100000 1 0000000 0 0000011 ... 


例如 ， 第 一 块 1011000 的 正文 是 整数 88 的 7 位 二 进 制 表示 。 第 二 块 0001100 的 正文 是 整 
数 12 的 7 位 二 进 制 表示 。 第 二 块 起 始 位 指示 它 是 当前 码 字 的 结束 块 ， 当 解码 器 看 到 这 个 标 
志 时 ， 它 把 两 个 数 合 在 一 起 得 到 88 十 12X27 一 1624， 即 列表 的 第 一 个 元 素 。 

图 6-9 显示 了 vByte 方 法 的 编码 和 解码 流程 。 当 阅读 图 中 的 码 时 ， 你 将 会 发 现 vByte 显 
然 不 是 为 了 最 大 压缩 而 优化 的 。 例 如 ， 它 为 大 小 为 0 的 间距 分 配 码 字 00000000。 很 显然 ， 这 
样 的 间距 是 不 存在 的 ， 因 为 位 置信 息 构 成 的 是 严格 递增 的 序列 。 其 他 的 压缩 方法 〈 如 7、 
LLRUN、…) 都 不 会 为 大 小 为 0 的 间距 分 
配 码 字 。 然 而 ， 对 于 vByte， 人 情形 则 不 同 ， | ， 
它 留 下 这 个 不 用 的 码 字 做 其 他 用 途 。vByte ; delta — L{i] — previous 
的 解码 流程 被 高 度 优化 ， 使 得 解码 每 个 位 |: while delta > 128 do 
置信 息 只 需要 几 个 CPU 周期 , 增加 更 多 的 5 output Buffer. writeByte(128 + (delta & 127)) 


(6-51) 














encodeVByte ((L[1] 
previous — 0 
for i — 1 to n do 


penny L[n]}), outputBuffer) = 


delta — delta > 7 
操作 ¢ 即便 是 简单 的 操作 ? 如 十 1 或 — 1) output Buffer.writeBytel delta) 
会 增加 它 的 复杂 度 ， 这 样 将 会 损害 vByte 


previous — 工人 
return 


方法 较 之 其 他 压缩 方法 的 速度 优势 ° decodeVByte (inputBuffer, (ZU 


ps Le) = 
2. PR RE n mant T to n do 
与 处 理 整个 字 节 比 处 理 单 个 位 更 有 效 | ,。 shift — 0 
的 思路 一 样 ， 在 解码 一 个 压缩 的 位 置信 息 [be inpubBalfer-readdiytel) 
列表 时 ， 访 问 整个 机 器 字 一 般 会 比 逐 个 获 15 current — current + ((b & 127) < shift) 
取 所 有 字 节 要 更 有 效 。 因 此 ， 如 果 我 们 强 | MAr MAAT pyb 





制 用 16 位 、32 位 或 64 位 的 整数 来 存储 给 18 current — current + (b & shift) 
定位 置信 息 列表 中 的 每 个 位 置信 息 , 那么 | PU current 

我 们 期 望 可 以 获得 更 高 的 解码 速度 。 遗 憾 一 — 
的 是 ， 这 样 做 与 压缩 索引 的 目的 背道而驰 。 图 6-9 vByte 的 编码 和 解码 流程 。 通 过 位 移 操 作 
如 果 我 们 用 32 位 整数 编码 每 个 A-value， CK”, EBs “>”: BBs “ 色 ”， 按 位 
那 还 不 如 使 用 更 简单 的 编码 器 ， 直 接 将 每 与 ) 实现 了 高 效 的 乘 和 除 操作 
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个 位 置信 息 存储 为 未 压缩 的 32 位 整数 。 

下 面 的 这 个 想法 解决 以 上 问题 : 不 要 将 每 个 A-value 使 用 一 个 单独 的 32 位 机 器 字 来 存 
储 ， 而 是 将 连续 几 个 值 ， 比 如 2 个 ， 用 一 个 字 来 存储 。 例 如 ， 只 要 编码 器 看 见 三 个 连续 的 
间距 kiek, WE 上 ii 委 2 0 委 i 稚 3)， 就 用 一 个 字 来 存储 它们 ， 每 个 ki 分 配 9 位 ， 共 占 27 
.位 ， 剩 下 的 5 个 未 用 位 可 以 用 作 其 他 用 途 。 

Anh 和 Moffat (2005) 讨论 了 多 种 字 对 齐 的 编码 方法 ， 它 们 都 基于 上 述 类 似 的 想法 。 
最 简单 的 方法 叫做 Simple-9。 这 种 方法 探测 位 置信 息 序列 中 后 几 个 A-value， 试 图 将 尽量 多 的 位 
置信 息 挤 进 一 个 32 位 的 机 器 字 中 。 当 然 ， 当 解码 器 看 到 一 个 32 位 的 字 ， 推 测 这 个 字 中 可 能 包含 
多 个 Avalue， 但 不 知道 这 个 机 器 字 中 给 每 个 A-value FAB TULA. ALA, Simple 9 将 每 个 字 的 前 
4 位 留 给 选择 器 , 这 个 4 位 的 整数 就 通知 解码 器 当前 这 个 字 的 划分 情况 。 字 内 剩 下 的 28 位 ， 共 有 
9 种 不 同 的 方法 将 其 划分 为 等 大 的 块 〈 如 表 6-6) 。 这 也 是 这 种 方法 名 字 的 来 由 。 


表 6-6 Simple-9 的 字 对 齐 位 置信 息 压 缩 。 从 32 位 中 预 留 4 位 用 来 保存 选择 器 的 值 ， 
共有 9 种 可 能 的 方法 将 鳃 下 的 28 位 划分 成 等 大 的 块 











选择 器 3 6 

Ax 1 2 3 4 5 7 9 14 28 

每 A 位 数 28 14 9 7 5 4 3 2 1 
1 0 3 0 1 


每 字 未 用 位 数 


对 于 前 面 那个 相同 的 A-value 序列 GAM “aligned” Æ GOV2 文档 集中 的 文档 编号 列 
表 )， 对 应 的 码 串 为 ， 

0001 00011001011000 00000000011001 0010 011100001 001011111 101111111 U (6-52) 
HH, 0010 (=2) 是 第 二 个 机 器 字 的 选择 器 ，011100001 是 整数 225( 二 1876 一 1650 一 1) 的 9 
位 二 进 制 表示 。“U” 表示 一 个 未 使 用 的 位 。 

这 个 样 例 序列 中 ，Simple-9 并 没有 比 vByte 得 到 更 紧凑 的 表示 。 这 是 因为 词 项 “a- 
ligned” 出 现 相对 较 少 ， 并 且 位 置信 息 列 表 的 间距 都 很 大 。 然 而 ， 对 于 具有 较 小 间距 的 频繁 
词 项 ，Simple-9 方法 明显 比 vByte 要 好 ， 因 为 它 能 够 用 每 个 间距 1 位 来 编码 一 个 位 置信 息 列 
表 (加 上 选择 器 的 一 些 开 销 ) 。 另 外 ，Simple- 9 的 解码 性 能 几乎 和 vByte 一 样 好 ， 因 为 用 于 


从 给 定 的 机 器 字 中 抽取 出 %== É | 位 整数 而 需要 的 移动 掩 码 操作 可 以 非常 高 效 的 执行 


3. 非 对 齐 码 的 高 效 解 码 
即使 前 面 章节 介绍 的 非 对 齐 方法 与 vByte 和 Simple-9 不 局 
解码 的 目的 而 专门 设计 的 ， 但 是 大 多 数 仍 然 允 许 高 效 解码 。 然 而 ， 为 了 达到 这 个 目标 ， 应 尽 








可 能 地 避免 耗 时 的 按 位 解码 操作 。 
我 们 通过 一 个 例子 来 说 明 。 考 虑 6. 3. 1 节 中 的 > 编码。 将 以 下 位 置信 息 列 表 
L =(7,11, 24, 26, 33, 47) (6-53) 
转换 成 一 个 等 价 的 A-value 序列 
A(L) = (7, 4, 13, 2, 7,14) (6-54) 
用 y 编码 器 得 到 下 面 的 位 串 
+(L) = 001 11 001 00 0001 101 01 0 001 11 0001 110 (6-55) 


为 了 确定 这 个 串 中 每 个 码 字 的 位 长 ， 解 码 器 需要 重复 好 查找 第 一 个 1 的 位 置 ， 因 为 这 个 
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位 指示 了 码 字 选 择 器 部 分 的 结束 。 这 可 以 通过 按 位 方式 处 理 *(L) ， 探 测 每 一 个 位 是 0 还 是 
1。 然 而 ， 这 样 的 解码 过 程 非常 低 效 。 不 仅 因 为 每 一 个 码 位 需要 执行 至 少 一 次 CPU 操作 ， 而 
A, 判断 “当前 位 是 0 吗 ?” 所 需要 的 条 件 跳 转 就 有 可 能 会 导致 大 量 的 分 支 误 判 ， 这 将 清空 
CPU 执行 管道 ， 显 著 减 慢 解码 过 程 〈 见 附录 中 高 性 能 计算 简介 部 分 ;或 者 查看 Patterson 和 
Hennessy (2009) 获取 这 方面 更 详细 的 介绍 ) 。 

假定 我 们 知道 ACL) 中 的 元 素 都 不 大 于 2 一 1 〈 正 如 上 面 的 例子 )。 这 意味 着 码 串 中 所 有 
的 选择 器 都 不 超过 4 位 。 因 此 ， 我 们 可 以 构建 一 个 包含 2: 一 16 个 元 素 的 表 人， 指示 位 串 中 
第 一 个 1 的 位 置 ， 给 定 后 面 4 位 ; 


T[0000]= 5,T{0001]=4, T[0010]=3, T[0011]=3, 
T[0100]=2, TI[0107]=2, T[0110]=2, T[O0111]=2, (6-56) 
T| 1000]=1, T[1001]=1, T[1010]=1, T|1011]=1, | 
T[1100]=1, T[1101]=1, T[1110]=1, T[IMI]=1 


(其 中 “5” 表 示 不 在 前 面 4 位 中 ) 。 
我 们 可 以 使 用 这 个 表 来 实现 码 的 高 效 解码 ， 如 图 6-10 所 示 。 算 法 不 是 单独 测试 每 个 位 ， 
而 是 将 码 串 每 次 8 位 的 加 载 进 64 位 的 位 缓冲 区 《bit buffer) ， 然 后 用 存储 在 查找 表 工 中 的 
信息 ， 每 次 处 理 前 面 的 4 位 。 像 这 个 算法 这 样 的 方法 被 称 为 表 驱 动 解码 (table-driven deco- 
ding). HAF y, 6. Golomb, Rice 码 和 基于 哈 夫 曼 方 法 的 LLRUN 方法 。 然 而 ， 在 
LLRUN 中 表 工 的 内 容 取决 于 编码 步 又 所 选择 的 码 。 因 此 ， 解 码 器 在 开始 解码 前 ， 需 要 处 理 
哈 夫 曼 树 来 初始 化 查找 表 。 
decodeGamma (inputBuffer, T[0..2* — 1], (L[1] 
current — 0 
bitBuffer — 0 
bitsInBuffer — 0 
fori — 1 to n do 
while bitsInBuffer + 8 < 64 do 


bitBuffer — bitBuffer + (inputBuffer.readByte() < bitsInBuffer) 
bitsInBuffer ~ bitsInBuffer + 8 
codeLength — T(bitBuffer & (2* —1)] 





w Ny Ane wWwne 





9 bitBuffer — bitBuffer >> (codeLength — 1) 

10 mask +— (1 < codeLength) —1 

11 current — current + (bitBuffer & mask) 

12 bitBuffer — bitBuffer > codeLength 

13 biisInBuffer — bitsInBuffer — 2 x codeLength — 1 
14 Lt] — current 

15 return 








图 6-10 表 驱 动 的 7 解 码 方法 。 使 用 一 个 位 缓存 和 大 小 为 2 的 查找 表 TET i 
位 解码 操作 ， 表 TT 用 于 决定 当前 码 字 的 长 度 。 通 过 位 移 操 作 C: 左 
移 ; “>”, 右 移 ;“&”: 按 位 与 ) 实现 了 高 效 的 乘 和 除 操作 


表 驱 动 的 解码 方法 解释 了 为 什么 限 长 的 哈 夫 曼 码 COL 6. 2. 2 节 ) 对 高 性 能 查询 处 理 是 如 
此 重要 : 如 果 我 们 知道 每 个 码 字 都 不 超过 位 ， 那 么 解码 流程 仅 需 要 一 个 表 查 找 操作 〈 在 
大 小 为 2* 的 表 中 进行 ) 就 能 找 出 给 定位 串 的 下 一 个 码 字 。 这 样 比 显 式 地 以 按 位 方式 遍历 哈 
夫 曼 树 要 快 很 多 。 


6.3.5 ”压缩 效果 
证 我 们 来 看 一 下 目前 讨论 的 各 种 方法 能 够 达到 的 压缩 率 。 表 6-7 给 出 了 三 个 样 例文 档 集 
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上 的 不 同类 型 (文档 编号 ，TF 值 ， 文 档 内 人 位置， 模式 独立 ) 的 位 置信 息 列 表 上 ， 通 过 每 个 
位 置信 息 所 占 的 位 数 来 衡量 的 压缩 率 一 览 表 。 由 于 莎士比亚 文集 不 含 住 何 实 际 的 文档 (doc- 
ument)， 为 了 能 够 进行 压缩 实验 ， 我 们 将 每 一 个 《SPEECH》…《/SPEECH) 这 样 的 XML 元 
素 间 的 内 容 看 做 是 一 个 文档 。 


表 6-7 不 同 压缩 方法 对 位 置信 息 列表 的 压缩 效果 ， 评 价 在 三 个 不 同 的 文档 集 上 进行 。 所 有 的 数字 
表示 压缩 效果 ， 用 每 个 位 置信 息 所 占 的 位 数 来 衡量 。 每 一 行 中 最 好 的 结果 用 黑体 标识 





列表 类 型 了 6 Golomb Rice LLRUN Interp. vByte S-9 
& 文档 编号 8.02 7.44 6.48 6.50 6.18 6.18 9.96 7.58 
4 TF 1.95 2.08 2.14 2.14 1.98 1.70 8.40 3.09 
E 文档 内 位 置 8.71 8.68 6.53 6.53 6.29 6.77 8.75 7.52 
a 模式 独立 15.13 13.16 10.54 10.54 10.17 10.49 12.51 12.75 
8 文档 编号 7.23 6.78 5.97 6.04 5.65 5.52 9.45 7.09 
Ù TF 值 2.07 2.27 1.99 2.00 1.95 1.71 8.14 2.77 
a 文档 内 位 置 12.69 11.51 8.84 8.89 8.60 8.83 11.42 10.89 
z 模式 独立 17.03 14.19 12.24 12.38 11.31 11.54 13.71 15.37 

文档 编号 8.02 7.47 5.98 6.07 5.98 5.97 9.54 7.46 
S TF 值 2.74 2.99 2.78 2.81 2.56 2.53 8.12 3.67 
S 文档 内 位 置 11.47 10.45 9.00 9.13 8.02 8.34 10.66 10.10 

模式 独立 13.69 11.81 11.73 11.96 9.45 9.98 11.91 n/a 


表 中 提 到 的 方法 有 : y 和 6 编码 (6.3.1 47); Golomb/Rice 以 及 基于 哈 夫 曼 的 LLRUN 
(6.3.2 49); 插值 编码 (6.3.3 W); 以 及 两 个 面向 性 能 的 方法 一 一 vByte 和 Simple- 9 
(6. 3.4 节 )。 在 所 有 情况 下 ， 位 置信 息 列表 在 压缩 前 被 分 割 成 多 个 包含 大 约 16 000 个 位 置信 
息 的 块 。 对 于 有 参数 的 方法 (Golomb、Rice、LLRUN)， 单 独 为 每 个 块 选 择 压 缩 参 数 (局 
部 参数 化 (local parameterization) ) ， 这 使 得 这 三 种 方法 都 考虑 了 同一 个 位 置信 息 列 表 中 不 
同 部 分 小 的 分 布 差别 一 一 这 种 能 力 将 在 6. 3. 7 节 派 上 用 场 。 

正如 从 表 6-7 中 看 到 的 那样 ， 播 值 编码 在 三 个 文档 集 上 对 于 文档 编号 和 TF 值 都 是 最 好 
的 ， 紧 接着 是 LLRUN 和 Colomb/Rice。 比 起 其 他 方法 ， 插 值 编码 最 大 的 优势 在 于 当 大 部 分 
间距 值 为 1 时 ， 它 可 以 用 平均 不 到 1 位 对 位 置信 息 进 行 编码 。 这 正 是 文档 编号 列表 中 多 数 频 
繁 词 项 的 情况 (HA “the” Æ GOV2 80% 的 文档 和 TREC45 99% 的 文档 中 出 现 )， 在 TF 
值 列表 中 也 一 样 ， 当 随机 选择 一 个 文档 D 并 随机 从 刀 中 挑选 一 个 词 项 荆 时 , TED 中 可 能 
只 出 现 1 次 。 

对 于 其 他 类 型 的 列表 〈 文 档 内 位 置 (within- document positions) 和 模式 独立 (schema- 
independent)), REFERAAT, LLRUN 是 最 好 的 ， 后面 跟 着 的 是 插值 编码 和 
Golomb/Rice 编码 。Golomb/Rice 编码 在 这 两 种 类 型 的 列表 上 表现 不 好 ， 原 因 是 Golomb 编 
码 的 基本 假设 〈 即 间距 满足 几何 分 布 ) 对 于 这 两 种 列表 都 不 成 立 。 

假定 文档 之 间 相 互 独 立 ， 我 们 知道 在 一 个 给 定 的 文档 编号 列表 中 的 间距 大 致 服从 下 面 形 
式 的 分 布 〈 见 公式 (6-43)): 





Pr[A = k] = (1 - p)" -p (6-57) 

对 于 文档 内 位 置 和 模式 独立 列表 这 个 假定 不 再 成 立 。 如 果 一 个 随机 词 项 工 出 现在 靠近 文档 

开始 的 部 分 ， 与 它 出 现在 靠近 文档 结束 部 分 相 比 ， 这 个 词 项 更 有 可 能 再 一 次 出 现在 同一 个 文 
档 中 。 因 此 ， 这 些 列表 中 的 元 素 不 是 相互 独立 的 ， 间 距 值 也 不 服从 几何 分 布 。 

GOV2 文档 集中 的 词 项 “huffman” 的 出 现 模 式 是 这 一 现象 的 好 例子 。 图 6-11 展示 了 这 
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个 词 项 的 文档 编号 列表 、 基 于 文档 的 位 置信 息 列表 以 及 模式 独立 列表 的 间距 值 分 布 情况 。 做 
了 对 数 转换 后 ， 将 具有 相同 长 度 len(A) 王 [logs(A)] 十 1 的 间距 放 到 同一 个 桶 中 ， 图 6-11a 
显示 的 曲线 具有 几何 分 布 的 特征 ， 在 len(A)~10 的 周围 有 一 个 明显 的 峰值 。 图 6-11b 是 文 
档 内 位 置 的 列表 ， 也 有 一 个 峰值 ， 但 是 它 不 如 6-11a 中 的 那么 清晰 。 最 后 ， 图 6-11c 描绘 的 
是 模式 独立 列表 ， 它 根本 就 不 符合 几何 分 布 。 相 反 ， 我 们 能 看 到 两 个 峰值 ， 一 个 对 应 同一 文 
档 中 词 项 “huffman” 两 次 以 上 的 出 现 〈len(A)6)， 另 一 个 对 应 不 同文 档 中 的 连续 出 现 
(len(A)s*22)。 显 然 ， 如 果 一 个 方法 是 面向 几何 分 布设 计 的 ， 它 就 不 可 能 在 明显 不 服从 几何 
分 布 的 位 置信 息 上 得 到 很 好 的 结果 ， 正 如 图 6-11c 所 示 。 这 也 正 是 LLRUN 在 位 置 型 的 位 置 
信息 列表 〈 基 于 文档 或 模式 独立 ) 上 的 性 能 比 Golomb/Rice 要 好 很 多 的 原因 一 一 多 达 每 条 
位 置信 息 2. 5 位 。 
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A-value 的 位 长 :llogz(A)1+1 
c) 模式 独立 列表 
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A-value 的 位 长 :llog2z(A)|+1 A-value 的 位 长 : [log2(A) |+1 
图 6-11 在 GOV2 文档 集中 词 项 “huffman” 的 几 个 不 同类 型 位 置信 息 列 表 的 间距 值 分 布 情况 。 
纵 轴 是 具有 给 定 大 小 的 间距 值 个 数 。 只 有 文档 编号 列表 中 的 间距 服从 几何 分 布 


LLRUN-k 方法 是 一 种 根据 连续 出 现 的 位 置信 息 之 间 的 依赖 关系 专门 设计 的 方法 
(6. 3. 3 45), LLRUN-k 与 LLRUN 非常 类 似 ， 除 了 它 是 使 用 一 阶 压缩 模型 ， 并 由 棵 不 同 
的 哈 夫 曼 树 而 不 是 1 棵 哈 夫 曼 树 物化 得 到 的 。 表 6-8 MET LLRUN-k 方法 与 原始 的 零 阶 
LLRUN 方法 的 压缩 率 。 


表 6-8 零 阶 LLRUN 与 一 阶 LLRUN 的 对 比 。 值 得 注意 的 是 ， 只 在 GOV2 的 两 种 位 置 型 的 索 
引 上 (文档 内 位 置 索 引 和 模式 独立 索引 ) 有 所 提高 。 所 有 其 他 的 索引 要 么 太 小 ， 抵 
消 了 存储 开销 (因为 更 复杂 的 模型 ) ， 要 么 列表 元 素 之 间 不 存在 很 强 的 依赖 性 


Gov2 











列表 类 型 








LLRUN LLRUN-2 LLRUN-4 LLRUN-2 
文档 内 位 置 7.82 










8.60 8.57 8.57 8.02 7.88 


模式 独立 11.31 11.28 11.28 9.45 9.29 
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对 于 两 个 小 的 文档 集 ， 这 个 方法 就 没有 显著 的 效果 ， 因 为 编码 上 获得 的 一 点 效率 却 被 前 
面 的 更 大 的 实际 码 字 串 抵消 了 。 然 而 ， 对 于 GOV 的 两 个 位 置 型 索引 ， 我 们 确实 看 到 了 倒 
排 索引 列表 空间 需求 有 小 幅 减少 。 对 于 文档 内 位 置信 息 ，LLRUN-2/LLRUN-4 能 够 使 得 每 
个 位 置信 息 所 占 空间 减少 0. 14/0. 20 位 (一 1.7% /—2.5%); 对 于 模式 独立 索引 ， 它 们 能 够 
使 每 个 位 置信 息 所 占 空间 减少 0. 16/0. 22 位 (—1.7% /—2. 3 多)。 这 种 提高 是 否 有 价值 取决 
于 具体 的 应 用 。 对 于 搜索 引擎 来 说 ， 它 们 通常 是 没有 什么 价值 的 ， 因 为 更 加 复杂 的 解码 过 程 
所 带 来 的 代价 超过 了 减少 2% 的 空间 所 带 来 的 好 处 。 


6.3.6 解码 性 能 


正如 6. 3.4 节 在 引入 字 节 对 齐 和 字 对 齐 压缩 方法 时 所 指出 的 那样 ， 减 少 倒 排 索 引 的 存储 
空间 只 是 应 用 压缩 技术 的 一 个 原因 。 另 外 一 个 更 加 重要 的 原因 是 ， 更 小 的 索引 能 够 带 来 更 好 
的 查询 性 能 ， 至 少 当 位 置信 息 列表 存储 在 磁盘 上 时 是 这 样 的 。 作 为 一 个 经 验 法 则 ， 如 果 解 码 
开销 (用 纳 秒 / 每 个 位 置信 息 来 衡量 ) 低 于 以 压缩 形式 存储 的 位 置信 息 的 磁盘 I/O 时 间 ， 那 
么 这 个 索引 压缩 方法 应 该 能 够 提高 查询 性 能 。 

表 .6-9 列 出 了 对 文档 编号 列表 的 多 种 压缩 方法 的 压缩 效果 、 解 码 效率 以 及 开销 之 和 。 所 有 的 
值 是 通过 运行 来 自 2006 年 TREC TB 专题 有 效 性 任务 中 的 10 000 个 查询 和 解压 所 有 查询 词 项 ( 忽 
略 了 停 用 词 〉 的 位 置信 息 列表 得 到 的 。 请 注意 ， 表 (bits/ docid”) 中 列 出 的 压缩 效果 与 前 面 的 表 
有 很 大 的 差异 ， 这 是 因为 这 些 结果 不 是 根据 整个 索引 而 是 根据 出 现在 查询 中 的 词 项 得 到 的 。 这 些 
差异 是 可 预期 的 : 文档 集中 的 频繁 词 项 往往 也 是 查询 流 中 的 频繁 词 项 。 由 于 频繁 词 项 比 不 频繁 词 
项 的 位 置信 息 列表 的 间距 更 小 ， 因 此 表 6-9 中 的 压缩 率 会 比 表 6-7 中 的 好 。 

表 6-9 ”GOV2 的 文档 编号 索引 的 磁盘 |/O 和 解压 缩 的 总 开销 列表 。 总 开销 是 基于 上 顺序 磁盘 
ARER 87 MB/s (全 1.37 ns/bit) 来 计算 的 























解码 总 开销 
压缩 方法 《位 /文档 编号 ) 〈 纳 秒 /文档 编号 ) (解码 十 磁盘 1/0) 
Gamma 4.56 7.73 13. 98 ns 
Golomb 3.78 10. 85 16. 03 ns 
Rice 3.81 6. 46 11. 68 ns 
LLRUN 3. 89 7. 04 12. 37 ns 
Interpolative 3. 87 26. 50 31. 80 ns 
vByte 8.11 1.39 12. 50 ns 
Simple-9 4.91 2.76 9. 49 ns 
ARSE (32 位 ) 32. 00 0. 00 43. 84 ns 
未 压缩 (32 位 ) 32.00 0. 00 87. 68 ns 


为 了 计算 搜索 引擎 解码 和 磁盘 I/O 的 总 开销 ， 我 们 假定 硬盘 以 87 MB/s (会 1. 37 ns/bit; 
SURE) 的 速率 传输 位 置信 息 数 据 。 例 如 ， 对 于 vByte 方法， 每 一 个 压缩 后 的 文档 编号 值 需 
要 8. 11 位 (平均 )， 换 算 为 磁盘 1/O 开销 就 是 每 个 位 置信 息 8. 11X1. 37 王 11. 11 ns。 再 加 上 
解码 每 个 位 置信 息 的 开销 1. 39 ns， 因 此 每 个 位 置信 息 的 总 开销 为 12. 50 ns, 

大 多 数 的 方法 表现 的 性 能 处 在 一 个 水 平 ， 每 个 位 置信 息 的 总 开销 为 10~15 ns. HFH 
值 编码 具有 相当 复杂 的 递归 解码 过 程 ， 因 此 它 是 一 个 例外 ， 每 个 位 置信 息 的 总 开销 超过 
30 ns。 与 其 他 技术 相 比 ， 字 节 对 齐 的 vByte 方法 的 表现 相当 平庸 ， 被 其 他 三 个 方法 远 远 超 
出 ， 包 括 相 对 复杂 的 LLRUN 算法 。simple-9 由 于 vByte 具有 相当 不 错 的 压缩 率 和 很 低 的 解 
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码 开销 ， 因 此 在 实验 中 的 性 能 表现 最 好 。 

当然 ， 表 中 的 数字 仅仅 代表 了 在 文档 编号 索引 上 得 到 的 实验 结果 。 比 如 ， 在 位 置 型 位 置 
信息 的 索引 或 者 是 模式 独立 索引 中 ， 结 果 明 显 更 有 利于 vByte。 不 仅 如 此 ， 如 果 使 用 缓存 或 
是 背景 VD (Background I/O)， 那 么 这 个 简单 的 性 能 评价 模型 (计算 磁盘 W/O 和 解码 操作 的 
时 间 和 作为 总 开销 》 的 有 效 性 将 会 遭 到 质疑 。 但 是 不 管 如 何 ， 可 以 清楚 地 得 到 一 个 结论 ， 与 未 
经 压缩 的 索引 〈 每 个 位 置信 息 占 32 位 或 64 位 ) 相 比 ， 每 种 压缩 方法 都 能 提高 查询 性 能 。 


6.3.7 文档 重 排 


目前 为 止 ， 当 讨论 各 种 方法 来 压缩 存储 在 索引 位 置信 息 列表 中 的 信息 时 ， 我 们 总 是 假定 
存储 在 位 置信 息 列表 中 的 实际 信息 是 固定 的 、 不 会 被 修改 的 。 显 然 这 是 一 个 过 度 简单 化 的 假 
设 。 事实 上 ,文档 不 是 由 一 个 数字 标识 符 而 是 由 文档 名 字 、URL 或 其 他 描述 它 来 源 的 文字 
信息 所 表示 。 在 将 检索 结果 展现 给 用 户 之 前 ， 为 了 将 搜索 结果 转换 为 它们 本 来 的 内 容 ， 每 一 
个 数字 文档 标识 符 都 要 转换 成 文档 位 置 或 内 容 的 文本 描述 。 这 种 转换 通常 借助 于 一 个 称 为 文 
档 地 图 (document map) 的 数据 结构 来 实现 〈 见 4.1 节 )。 

这 意味 着 文档 编号 可 以 是 任意 的 ， 而 且 不 必 具 有 任何 内 在 的 语义 信息 。 因 此 我 们 可 以 按 
想 要 的 方式 来 重新 分 配 数字 标识 符 ， 只 要 保证 所 有 的 改变 都 能 被 文档 地 图 正确 反映 。 例 如 ， 
我 们 可 以 尝试 以 索引 压缩 率 最 大 这 种 方法 重 分 配 文档 编号 。 这 个 过 程 通常 被 称 为 文档 重 排 
(document reordering) 。 为 了 看 到 这 个 过 程 的 作用 ， 考 虑 以 下 文档 编号 列表 。 


L = (4, 21, 33, 40, 66, 90 ) (6-58) 
它 的 编码 表示 为 (46 位 ): 
001 00 00001 0001 0001 100 ODI 11 00001 1610 000001 00010 (6-59) 
如 果 我 们 按照 如 下 的 方式 重新 分 配 文档 标识 符 ， 则 列表 变 为 
L = (4,6, 7, 45,51, 120) (6-60) 
因此 得 到 的 编码 表示 为 〈36 位 ) 
001000101000001 00110 001 10 0000001 000101 (6-61) 


比 原来 减少 了 22 多 的 存储 空间 。 

从 这 个 例子 中 可 以 清楚 地 看 到 ， 我 们 不 太 关 注 位 置信 息 列表 间距 值 的 平均 大 小 《公式 
(6-58) 中 为 17.2， 而 公式 (6-60) 中 为 23.2)， 而 更 加 关注 如 何 最 小 化 平均 码 字 长 度 ， 这 
个 值 与 每 个 间距 值 的 对 数值 紧密 相关 。 在 上 面 的 例子 中 ， 和 的 值 


> Moga (Ll + 1) — Lii) (6-62) 


#=1 

从 22 减少 到 18 (—18%). 

当然 ， 现 实 中 事情 往往 没有 那么 简单 。 通 过 重新 分 配 文档 标识 符 来 减少 一 个 位 置信 息 列 
表 所 占 的 存储 大 小 的 同时 ， 又 可 能 导致 另外 一 个 位 置信 息 列表 所 占 存 储 大 小 的 增加 。 找 到 最 
优 的 分 配方 案 ， 最 小 化 索引 的 整体 压缩 大 小 ， 被 认为 是 一 个 难以 计算 的 问题 〈 即 NP 完全 问 
题 ) 。 幸 运 的 是 ， 还 是 有 许多 文档 重 排 的 启发 式 规则 ， 尽 管 找到 的 是 一 个 次 优 的 文档 编号 重 
分 配方 案 ， 但 通常 都 会 显著 地 提升 压缩 效果 。 大 部 分 这 些 启发 式 规 则 都 是 基于 聚 类 算法 ， 这 
类 算法 需要 复杂 的 实现 过 程 和 大 量 的 计算 资源 。 这 里 ， 介 绍 两 种 特殊 的 方法 ， 实 现 相当 简 
单 ， 需 要 很 少 的 计算 资源 ， 但 仍然 可 以 获得 相当 不 错 的 效果 ， 

、 第 一 种 方法 根据 每 个 文档 中 所 人 的 不 同 词 项 的 个 数 来 对 文档 集中 的 文档 重新 排序 
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这 个 方法 的 思想 是 ;同时 包含 大 量 不 同 词 项 的 两 个 文档 更 有 可 能 具有 相同 词 项 ， 而 
一 个 文档 包含 大 量 不同 词 项 ， 另 一 个 文档 只 包含 少量 不 同 词 项 ， 则 不 太 可 能 具有 相 
同 词 项 。 所 以 ， 使 同时 包含 大 量 不 同 词 项 的 文档 分 配 到 的 文档 编号 比较 接近 ， 就 可 
以 比 随 机 分 配 文档 编号 要 获得 更 好 的 聚 类 效果 。 
第 二 种 方法 假定 所 有 的 文档 都 是 从 Web (或 者 企业 内 部 网 ) 上 抓 取得 到 的 。 它 根据 
URL 的 字母 顺序 重新 分 配 文档 编号 。 这 个 方法 的 思想 是 : 来 自 相 同 Web 服务 器 
〈 甚 至 同一 服务 器 下 的 相同 目录 ) 的 两 个 文档 更 有 可 能 具有 相同 词 项 ， 而 来 自 Inter- 
net 上 不 相关 地 址 的 两 个 文档 则 不 然 。 

表 6-10 显示 了 这 两 个 文档 重 排 启发 式 规则 对 各 种 索引 压缩 方法 的 压缩 效果 的 影响 。 
“Original” 这 一 行 是 指 官方 对 GOV2 文档 集 的 排序 ， 代 表 着 文档 从 Web 上 抓 取 下 来 的 顺序 。 
其 他 的 行 分 别 代 表 了 按 随机 排序 、 按 包含 不 同 词 项 个 数 排序 和 按 URL 排序 的 方法 。 


表 6-10 文档 重 排 对 压缩 效果 (单位 : 位 ) 的 影响 。 所 有 的 数据 都 来 自 于 GOV2 


文档 序 了 Golomb 了 Rice LLRUN Interp. vByte S-9 
原 序 8.02 6.04 6.07 5.98 5.97 9.54 7.46 
B 随机 8.80 6.26 6.28 6.35 6.45 9.86 8.08 
长。 按 词 项 数 5.81 5.08 5.15 4.60 4.26 9.18 5.63 
按 URL 3.88 5.10 5.25 3.10 2.84 8.76 4.18 
原 序 2.74 2.78 2.81 . 2.56 2.53 8.12 3.67 
REAL 2.74 2.86 2.90 2.60 2.61 8.12 3.87 
已 。 按 河 项 数 2.74 2.59 2.61 2.38 2.31 8.12 3.20 
按 URL 2.74 2.63 2.65 2.14 2.16 8.12 2.83 


对 于 文档 编号 列表 ， 我 们 可 以 看 到 文档 重 排 可 以 提高 表 中 每 一 种 压缩 方法 的 效果 。 具 体 
的 效果 视 不 同 的 算法 而 不 同 ， 因 为 有 些 方 法 (如 插值 编码 ) 比 其 他 方法 (如 Golomb 编码 ) 
更 容易 适应 新 的 数据 分 布 ， 但 是 总 体 趋势 是 一 样 的 。 有 些 情 况 效果 相当 显著 。 例 如 ， 用 盾 值 
编码 ， 平 均 空 间 开 销 由 每 个 位 置信 息 5. 97 位 减少 到 2. 84 位 ， 减少 超 过 了 50%. AERE 
因为 插值 编码 能 够 用 平均 不 到 1 位 来 编码 非常 小 的 间距 值 序 列 。 其 他 方法 则 每 个 位 置信 息 至 
少 要 1 位 (尽管 对 于 间距 值 非常 小 的 序列 ， 通 过 分 块 技 术 ( 见 6. 2.3 9), LLRUN 可 以 很 
容易 被 调整 ， 使 得 用 不 到 1 位 来 编码 每 个 位 置信 息 )。 

令 人 惊讶 的 是 ， 文 档 重 排 不 仅 提高 了 文档 编号 的 压缩 效果 ， 而 且 还 提高 了 TF 值 的 压缩 
效果 。 实 验 中 这 种 出 乎 意料 的 现象 出 现 的 原因 是 ， 每 个 倒 排 列表 被 分 割 成 多 个 包含 16 000 
个 位 置信 息 的 块 ， 压 缩 在 每 个 块 上 而 不 是 整个 列表 上 进行 。 将 倒 排列 表 分 割 成 多 个 小 块 的 初 
衷 是 为 了 能 够 对 每 个 位 置信 息 列表 进行 高 效 地 随机 访问 ， 因 为 如 果 将 整个 列表 都 压缩 成 一 个 
原子 单元 是 实现 不 了 这 样 的 随机 访问 的 〈 见 4. 3 节 )。 这 样 做 的 好 处 是 ， 压 缩 方法 可 以 对 同 
一 个 列表 的 不 同 部 分 (除了 无 参数 的 y 和 vByte 方法 ) 选择 不 同 的 参数 值 〈 即 压缩 模型 ) 。 
因为 文档 重 排 的 一 个 基本 思想 是 ， 将 数值 接近 的 文档 编号 分 配给 内 容 相 似 的 文档 ， 同 一 个 倒 
排列 表 的 不 同 部 分 就 可 以 具有 不 同 的 性 质 ， 因 此 可 以 得 到 更 好 的 整体 压缩 率 。 例 如 ， 当 使 用 
LLRUN 编码 后 ， 每 个 TF 值 平均 所 占 位 数 由 2. 56 减少 到 2.14 (— 16%), 


6.4 压缩 词典 


在 第 4 章 中 ， 我 们 已 经 指出 文档 集 的 词典 可 能 会 相当 大 。 虽 然 没 有 位 置信 息 列表 那么 
大 ， 但 仍 很 有 可 能 因为 太 大 而 无 法 载 人 内 存 。 此 外 ， 即 便 词典 小 到 可 以 装 和 人 内存， 但 减少 它 
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的 大 小 仍 是 一 个 好 想法 ， 因 为 这 样 就 可 以 使 搜索 引擎 更 好 地 利用 它 的 内 存 资源 一 一 比如 ， 组 
存 需 频繁 访问 的 位 置信 息 列表 或 者 缓存 频繁 查询 的 检索 结果 。 这 里 的 目标 是 尽 可 能 地 减少 词 
典 的 大 小 ， 同 时 仍 要 保证 访问 词典 记录 和 位 置信 息 列 表 的 低 延 迟 。 因 为 词典 查找 是 索引 构建 
中 的 主要 瓶颈 之 一 ， 又 因为 4. 5. 3 节 提 出 的 基于 合并 的 索引 算法 很 大 程度 上 独立 于 索引 过 程 
中 可 用 的 内 存 容 量 ， 所 以 没有 任何 理由 需要 在 索引 阶段 实施 词典 压缩 。 我 们 就 把 讨论 的 范围 
限制 在 索引 建立 后 查询 阶段 的 词典 上 的 可 用 的 压缩 技术 。 

回顾 图 4-1， 基 于 排序 的 内 存 词典 实质 上 是 一 个 整数 数组 (E (primary) 数组 )， 其 中 
每 个 整数 是 一 个 指向 变 长 词 项 描述 块 〈 即 词典 记录 ) 的 指针 ， 而 词 项 描述 块 是 辅 (seconda- 
ry) 数组 中 的 元 素 。 每 个 词 项 描述 块 包含 词 项 本 身 以 及 一 个 文件 指针 ， 该 指针 指示 词 项 对 应 
的 倒 排 列表 在 位 置信 息 文件 中 的 位 置 。 在 这 个 数据 结构 中 ， 可 通过 主 数组 上 的 二 分 查找 来 找 
到 词典 记 录 ， 跟 随 指针 再 到 辅 数 组 中 去 执行 串 比 较 操 作 。 主 数组 上 的 指针 通常 每 个 占 32 位 
(假定 辅 数 组 小 于 22 字 节 ) 。 

基于 排序 的 词典 包括 三 个 内 存 消耗 的 地 方 ， 主 数组 中 的 指针 、 词 项 描述 块 中 的 文件 指针 
以 及 词 项 本 身 。 考 虑 到 辅 数 组 中 所 有 的 数据 都 有 序 这 一 事实 ， 我 们 同时 考虑 这 三 个 组 成 部 
分 : 将 多 个 连续 的 词 项 描述 块 合并 为 组 ， 并 对 每 个 组 的 内 容 进 行 压缩 。 

1. 词典 分 组 

词典 分 组 的 基本 出 发 点 就 是 没有 必要 〈 而 且 事 实 上 是 不 利 的 ) 在 主 数 组 中 为 词典 中 的 每 
个 词 项 都 单独 分 配 一 个 指针 。 假 设 我 们 将 连续 的 g 个 词 项 分 为 一 组 (9 称 为 组 大 小 〈group 
size)) ， 并 只 为 每 个 组 中 的 第 一 个 词 项 〈 称 为 组 头 〈group leader)) 维护 一 个 指针 。 如 果 
g 王 1， 查 找 与 之 前 的 一 样 一 一 通过 在 包含 所 有 | V| 个 词 项 描述 块 的 列表 上 执行 二 分 查找 实 
现 。 如 果 g>>1， 则 首先 在 [| Y1/9] 个 组 头 上 执行 二 分 查找 ， 然 后 在 找到 的 组 内 顺序 扫描 剩 下 
的 g 一 1 个 元 素 。 

修改 后 的 基于 排序 的 词典 数据 结构 如 图 6-12 Pras (组 大 小 为 3) 。 当 使 用 图 中 的 词典 查 
找 词 项 “shakespeareanism” 时 ， 首 先 确定 组 头 为 “shakespeare” 可 能 包含 该 词 项 。 然 后 为 
了 找到 “shakespeareanism” 的 词典 记录 ， 用 线性 方式 处 理 该 组 中 所 有 的 词 项 。 从 概念 上 来 
说 ， 这 个 查找 过 程 与 4.4 节 中 讨论 的 词典 交错 技术 非常 类 似 。 





| |) 16629951 | 16630015 | 
were it. Sion 
443396197 443401063 | 443401545 | 443401596 443401649 _ 


图 6-12 分 组 的 基于 排序 的 词典 通过 将 多 个 词典 记录 合并 成 组 减少 主 数 组 中 指针 的 开销 


来 计算 一 下 查找 一 个 词 项 工时 ， 需 要 进行 字符 串 匹 配 的 次 数 。 为 简单 起 见 ， 我 们 假定 
词 项 全 确实 出 现在 词典 中 ,词典 共 包含 |V|==2" 个 词 项 ， 组 大 小 为 *， 其 中 mm 和 都 是 正 整 
数 (mn H nl). 
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。 当 g 二 1 时 ， 一 次 查找 平均 需要 大 概 % 一 1 次 字符 串 比 较 .。“ 一 4” 是 因为 一 旦 查找 到 
就 可 终止 二 分 查找 。%n 次 比较 之 后 找到 了 的 概率 为 50% ， 色 一 1 次 比较 后 为 25 多 ， 
n 一 2 次 比较 后 为 12.5 多 ， 以 此 类 推 。 因 此 ， 我 们 平均 需要 进行 n 一 1 次 字符 串 
比较 。 

。 当 9>1 时 ， 可 以 分 为 商 种 情况 : 

1) 词 项 下 是 Yl/9 个 组 头 中 的 一 个 。 这 种 情况 发 生 的 概率 为 1/9g9， 平 均 需 要 一色 一 1 
次 字符 串 比较 。 

2) Wi T 不 是 组 头 。 这 种 情况 发 生 的 概率 为 (9 一 1)/g。 平 均 需 要 (% 一色 ) 十 972 RF 
符 串 比较 ， 其 中 第 一 个 被 加 数 对 应 在 [YI/g 个 组 头 上 做 完全 二 分 查找 时 的 比较 次 数 〈 因 为 词 
项 T 不 是 组 头 ， 二 分 查找 不 会 提前 停止 )， 第 二 个 被 加 数 对 应 在 最 后 确定 的 组 中 线性 扫描 

一 1 个 非 组 头 成 员 的 比较 次 数 。 当 找到 匹配 的 词 项 时 扫描 终止 。 
结合 1 和 2， 比 较 操 作 的 期 望 次 数 为 : 
g 1 


s(n- m~1)+2— (n— m+ 2) = loga(V1) -logz(9) = = + 25" 


表 6-11 FT Ae MV =2” 的 词典 上 ， 用 不 同 的 组 大 小 得 到 的 平均 比较 次 数 。 表 中 
显示 出 选择 g 二 2 时 ， 每 次 查找 的 比较 次 数 并 没有 增加 。 选 择 g 一 8 时 增加 了 7 多 。 但 与 此 同 
时 ， 它 大 大 减少 了 主 数 组 中 指针 的 开销 ， 也 提高 了 词典 的 缓存 效率 ， 因 为 需要 访问 的 内 存 页 
更 少 了 

表 6-11 在 一 个 包含 ?|=22 个 词 项 的 基于 排序 的 词典 上 查找 一 个 词 项 平均 所 需 的 字符 串 比较 次 数 

组 大 小 1 2 4 8 16 32 64 

FARER 19.0 19.0 19.3 20. 4 23.4 30.5 45.5 








2. 前 端 编码 

一 旦 将 词典 记录 合并 为 组 后 ， 就 可 以 将 组 头 作为 同步 点 ， 从 而 压缩 词 项 描述 块 。 因 为 无 
论 是 以 压缩 还 是 非 压缩 形式 存储 给 定 组 内 的 词 项 描述 块 ， 它 们 总 是 要 被 顺序 遍历 的 ， 所 以 我 
们 不 妨 对 其 进行 压缩 ， 以 减少 存储 需求 和 查找 时 所 需 访 问 的 数据 量 。 

通常 使 用 一 种 称 为 前 端 编码 (front coding) 的 技术 来 压缩 基于 排序 的 词典 中 的 词 项 字 
符 串 。 因 为 词 项 是 按照 字母 顺序 排序 的 ， 因 此 连续 的 词 项 几乎 都 具有 相同 的 前 级 。 这 个 前 组 
会 很 长 。 例 如 ， 图 6-12 中 的 5 个 词 项 具有 相同 的 前 级 “shakespeare”。 

在 前 端 编码 中 ， 位 于 给 定 词 项 前 面 的 词 项 已 经 暗含 了 前 级 ， 因 此 我 们 删除 给 定 词 项 的 前 
级 ， 仅 存储 前 级 的 长 度 。 这 样 ， 一 个 词 项 的 前 端 编码 可 表示 为 如 下 的 三 元 组 形式 ， 

(preficLength, suffizLength, suffix) (6-63) 

为 了 便于 实现 ， 通 常 限定 前 级 和 后 级 的 长 度 最 多 为 15 个 字符 ， 实 现 词典 的 时 候 就 可 以 用 一 
PZT URD 来 存储 prefizLength 和 suffirLength。 如 果 后 缀 长 度 超过 15 个 字符 ， 就 存 
储 一 个 转 义 字符 (prefiz,suffiz) 二 (x ,0)， 再 以 其 他 方式 编码 这 个 字符 串 。 

图 6-12 中 的 词 项 采用 前 端 编码 可 表示 为 

( “shakespeare”, (11, 2, “an”), (13,3, “ism” ) ), { “shakespeareans”, (11, 1, ge) eee) 

之 前 也 提 过 ， 每 组 的 第 一 个 元 素 存储 为 未 压缩 形式 ， 作 为 一 个 二 分 查找 的 同步 点 。 

最 后 一 步 ， 当 压缩 完 词 项 字符 串 之 后 ， 我 们 仍然 可 以 减少 词典 中 的 文件 指针 的 开销 。 因 
为 位 置信 息 文 件 中 的 列表 是 按照 字母 顺序 排序 的 ， 与 词典 中 词 项 的 顺序 一 致 ， 文 件 指针 组 成 
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了 一 个 单调 递增 的 整数 序列 。 因 些 ， 我 们 可 以 使 用 6.3 节 中 介绍 的 任何 一 种 基于 何 距 值 的 列 
表 压 缩 技术 来 减少 存储 需求 。 例 如 ， 使 用 字 节 对 齐 的 vByte 方法 ， 以 “shakespeare” 开 头 的 
组 压缩 形式 如 下 : 
《((101,96, 54, 83, 1), “shakespeare”), ((2, 38), 11, 2, “an”), ((98, 3), 13, 3, “ism”) ) 
( (443396197, “shakespeare”), (4866, 11, 2, “an”), (482, 13, 3, “ism”) ) 
其 中 ， 每 个 词典 记录 的 第 一 个 元 素 是 A-encoded 文件 指针 (第 一 行 中 是 vByte， 第 二 行 是 
A-value) 。 在 前 端 编 码 中 ， 每 个 组 头 的 文件 指针 都 是 以 未 压缩 的 形式 存储 的 。 

表 6-12 列 出 了 上 述 方法 在 词典 大 小 和 平均 词 项 查找 时 间 上 的 效果 。 通 过 将 连续 的 词典 
记录 合并 为 组 ， 但 不 进行 压缩 ， 词 典 大 小 减少 了 18% (858 MB 与 1046 MB) 。 结 合 分 组 技 
术 和 前 端 编码 ， 词 典 存 储 需 求 又 将 近 减 少 一 半 。 如 果 再 使 用 vByte 编码 文件 指针 ， 词 典 就 仅 
为 原来 的 25% 。 


表 6-12 在 GOV2 的 基于 排序 的 词典 上 进行 词典 压缩 的 效果 ， 这 个 词典 包含 4950 万 个 词典 
记录 。 表 中 列 出 了 不 同 组 大 小 和 不 同 压缩 方法 下 词典 大 小 和 平均 词 项 查找 时 间 


(6-64) 





组 大 小 未 压缩 前 端 编码 ee neuen 

1 个 词 项 1046 MB/2. 8 ps n/a n/a n/a 

2 个 词 项 952 MB/2.7 ps 807 MB/2. 6 ps 643 MB/2. 6 ps 831 MB/ 3.1 ps 
4 个 词 项 904 MB/2. 6 ps 688 MB/2.5 ps 441 MB/2. 4 ps 533 MB/ 2.9 ps 
16 个 词 项 869 MB/2. 7 ps 589 MB/2. 2 ps 290 MB/2. 3 ps 293 MB/ 4. 4 ps 
64 个 词 项 860 MB/3. 9 ps 576 MB/2. 4 ps 252 MB/3. 2 ps 195 MB/ 8. 0 ps 
256 个 词 项 858 MB/9. 3 us 570 MB/4. 8 ps 243 MB/7. 8 ps 157 MB/29. 2 ps 


对 于 查找 性 能 ， 我 们 得 到 两 个 有 趣 的 观察 结果 。 首 先 ， 尽 管 将 词 项 描述 块 分 组 会 稍微 增 
加 字符 串 比 较 的 次 数 ， 但 仍然 提高 了 词典 查找 性 能 ， 因 为 减少 主 数 组 中 的 指针 数 使 得 二 分 查 
找 的 缓存 效率 更 高 。 其 次 ， 无论 组 大 小 g 为 何 值 ， 前 端 编 码 词 项 使 得 词典 查找 更 快 了 ， 因 
为 查找 中 需要 排序 和 比较 的 词 项 更 少 了 。 

表 6-12 最 后 一 列 的 压缩 方法 我 们 现在 还 没 介绍 : 结合 了 分 组 、 前 端 编 码 和 vByte， 在 应 
用 了 前 端 编码 和 vByte 后 再 使 用 了 通用 的 Ziv-Lempel 压缩 算法 (在 zlib? 压缩 方法 库 中 实现 
了 )。 这 么 做 是 因为 ， 即 便 是 前 端 编码 后 的 词典 仍然 具有 相当 程度 的 元 余 。 例如， 在 一 个 
TREC 文档 集 (包含 120 万 个 不 同 词 项 ) 上 的 前 端 编码 词典 中 ， 后 级“ation” 出 现 了 171 
次 ， 后 级 “ing” 出 现 了 7726 次 ， 后 级 “ville” 出 现 了 722 次 。 前 端 编码 具有 这 样 的 元 余 是 
很 显然 的 ， 因 为 它 仅 关注 于 词 项 的 前 缀 。 对 于 转换 过 后 的 A-transformed 文件 指针 也 存在 同 
样 地 问题 。 因 为 很 多 位 置信 息 列 表 〈 特 别 是 仅 包 含 一 个 位 置信 息 的 列表 ) 具有 相同 的 大 小 ， 
我 们 会 发 现 很 多 文件 指针 具有 相同 的 Avalue。 我 们 可 以 在 使 用 了 前 端 编 码 和 vByte 之 后 ， 
再 使 用 标准 的 Ziv-Lempel 数据 压缩 方法 来 减少 这 种 元 余 。 表 6-12 表明 这 种 方法 尽管 对 于 小 
的 组 效果 不 是 很 好 ,但 g 宇 64 时 ， 与 原来 未 压缩 的 索引 相 比 ， 能 够 将 词典 的 规模 减少 最 高 
可 达 85% 。 

3. 结合 词典 压缩 和 词典 交错 

在 4.4 节 中 ， 我 们 讨论 了 另外 一 种 减少 词典 内 存 需 求 的 方法 。 通 过 交错 词典 记录 和 保存 
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在 磁盘 中 的 位 置信 息 列 表 ， 仅 在 内 存 中 为 大 概 每 64 KB 的 索引 数据 维持 一 个 词典 记录 ， 我 
们 可 以 大 幅 减 少 词典 的 内 存 需求 : 将 千 兆 字 节 降 为 几 百 兆 字 节 。 很 自然 地 想到 ， 结 合 使 用 词 
典 压 缩 和 词典 交错 ， 使 搜索 引擎 的 内 存 词典 可 以 获得 更 好 的 压缩 效果 。 

表 6-13 总 结 了 使 用 这 种 方法 能 够 获得 的 效果 。 取 决 于 索引 块 的 大 小 B 两 个 连续 的 内 
存 词 典 记录 之 间 最 大 的 磁盘 索引 数据 量 ) 和 内 存 词典 组 大 小 g， 可 能 将 总 存储 量 减少 到 小 于 
1 MB (B=32 768，g 一 256) 。 这 种 方法 对 查询 阶段 不 利 的 地 方 在 于 增加 了 1/O 开销 ， 因 为 
每 个 查询 词 项 均 需 额外 读 取 32 768 FP: 用 我 们 实验 中 的 硬件 驱动 器 只 需 不 到 0. 5 ms, 

更 为 显著 地 是 ， 当 B=512, g=256 时 ， 词 典 的 大 小 可 以 减少 为 不 到 30 MB。 选 择 索引 
块 大 小 B=512 不 会 明显 降低 查询 性 能 ， 因 为 512 字 节 (=1 SK) 的 数据 是 很 多 硬盘 的 
最 小 传输 单元 。 无 论 如 何 ， 与 不 使 用 词典 交错 或 词典 压缩 的 数据 结构 相 比 ， 词 典 所 需 的 内 存 
还 是 能 减少 97% 以 上 。 


表 6-13 ”结合 使 用 词典 压缩 和 4. 4 节 介 绍 的 交错 词典 组 织 形式 得 到 的 内 存 词典 大 小 。 压 缩 方法 : 
FC+vByte 十 LZ。 索 引 数 据 结构 : GOV2 上 建立 的 词 频 索 引 (文档 编号 十 TF 值 ) 














索引 块 大 小 〈 字 节 》 

512 1024 2048 4096 8192 16 384 32 768 

-| 
1 个 词 项 117.0MB 60.7MB 32.0MB 17.1MB 9.3MB 51MB 9.9 MB 
组 4 个 词 项 68.1 MB 35.9MB 19.2MB 10.4MB 57MB 3.2 MB 1.8 MB 
大 16 个 词 项 43.8MB 23.4MB 12.7 MB 7.0MB 3.9 MB 2.3 MB 1.3 MB 
小 64 个 词 项 32.9MB 17.8 MB 9.8 MB 5.4MB 3.1 MB 1.8 MB 1.0 MB 
256 个 词 项 28.6 MB 15.6 MB 8.6 MB 48MB 2.7 MB 1.6 MB 0.9 MB 

6.5 总 结 
本 章 中 主要 的 观点 有 : 


很 多 压缩 方法 将 待 压缩 的 消息 看 做 是 符号 序列 ， 通 过 寻找 一 个 能 够 反映 符号 在 给 定 
的 消息 中 的 统计 特性 的 码 来 完成 压缩 ， 给 出 现 频繁 的 符号 分 配 更 短 的 码 字 。 

对 于 有 限 符号 集 上 任何 一 个 给 定 的 概率 分 布 ， 哈 夫 曼 编码 方法 总 能 产生 最 优 前 缀 码 
《 即 最 小 化 平均 码 字 长 度 的 码 ) 。 

算术 编码 能 够 获得 比 哈 夫 曼 编码 更 好 的 压缩 率 ， 因 为 它 不 为 每 个 符号 分 配 整数 位 长 
的 码 字 。 然 而 哈 夫 曼 编码 的 解码 速度 通常 比 算术 编码 要 快 ， 因 此 在 许多 应 用 中 仍 是 
首选 〈 比 如 搜索 引擎 ) 。 

倒 排列 表 的 压缩 方法 都 是 基于 这 样 一 个 事实 : 同一 个 位 置信 息 列表 中 的 位 置信 息 是 
升序 排序 的 。 通 常 将 列表 转换 为 等 价 的 A-value 序列 之 后 再 压缩 。 

有 参数 的 方法 通常 比 无 参数 的 方法 产生 更 小 的 输出 。 当 使 用 有 参数 的 方法 时 ， 可 以 
为 每 个 列表 选择 不 同 的 参数 〈 局 部 参数 化 ) 。 

如 果 位 置信 息 列表 中 的 间距 服从 几何 分 布 ， 那 么 使 用 Golomb/Rice 码 将 会 得 到 比较 
好 的 压缩 结果 。 

。 如 果 间 距 很 小 ， 插 值 编码 将 会 获得 非常 好 的 压缩 效果 ， 因 为 它 能 够 使 用 平均 不 到 1 
位 来 编码 每 个 位 置信 息 算术 编码 同样 也 具有 这 样 的 能 力 ， 但 是 它 的 解码 操作 比 插 
值 编码 的 解码 操作 更 复杂 )。 

如 果 间 距 值 分 布 范 围 比较 广 ， 基 于 哈 夫 曼 的 LLRUN 方法 可 以 得 到 非常 好 的 结果 。 
前 端 编 码 可 以 显著 地 减少 搜索 引擎 词典 数据 结构 的 内 存 需 求 。 与 词典 交错 方法 结合 
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使 用 ， 能 将 内 存 词典 的 大 小 减少 99 多 以 上 ， 同 时 几乎 不 会 降低 查询 性 能 。 


6.6 ”延伸 阅读 


通用 数据 压缩 〈 包 括 文本 压缩 ) 的 一 个 很 好 的 综述 由 Bell 等 人 《1990) 给 出 ， 更 近期 
的 Sayood (2005) 和 Salomon (2007) 也 做 了 同样 地 工作 。Witten 等 人 (1999) 总 结 了 倒 
排 文件 中 位 置信 息 列 表 的 压缩 技术 。Zobel 和 Moffat (2006) 对 倒 排 索引 中 的 压缩 技术 的 研 
究 做 了 综述 ， 包 括 对 已 有 的 倒 排 列表 压缩 方法 的 概述 。 

ARSH Hh David Huffman 在 1951 年 提出 ， 当 时 他 还 是 麻 省 理工 学 院 的 一 名 学 生 。 他 
的 一 个 教授 一 一 Robert Fano 让 他 的 学 生 想 出 一 个 对 任何 给 定 的 (有 限 长 度 的 ) 源 消息 产生 
最 优 二 分 码 的 方法 。Huffman 成 功 了 ， 并 取得 该 课程 的 免考 资格 作为 奖励 。 在 过 去 的 60 年 
里 ， 人 们 对 哈 夫 曼 码 进行 广泛 的 研究 ， 并 在 与 理论 最 优 码 〈 算 术 码 ) 相 比 的 元 余 度 方面 ， 已 
经 取得 重要 的 成 果 (Horibe，1977; Gallager, 1978; Szpankowski, 2000), 

算术 编码 可 以 克服 蛤 夫 曼 编码 为 每 个 符号 分 配 整数 个 位 所 导致 的 缺陷 。 算 术 编 码 最 早 由 
Rissanen (1976), Rissanen 和 Langdon (1979) 以 及 Martin (1979) 提出 ， 当 时 称 为 区 间 
编码 (range encoding)， 但 没有 得 到 广泛 地 采用 ， 直 到 20 世纪 80 年 代 中 期 ，Witten 等 人 
(1987) 发 表 了 一 种 高 效 的 算术 编码 器 。 许 多 现代 的 文本 压缩 算法 ， 如 DMC (Cormack 和 
Horspool, 1987) 以 及 PPM (Cleary 和 Witten，1984)， 都 是 基于 算术 编码 的 变形 得 来 的 。 

7、6 以 及 编码 由 Elias (1975) 提出， 他 同时 还 给 出 了 普遍 性 (universality) 的 概念 
(在 将 码 字 C; 分 配给 符号 ci 时 ， 如 果 出 现 概率 越 高 的 符号 分 到 的 码 字 越 短 ， 就 称 这 个 码 字 集 
合 是 普遍 的 〈universal) ， 每 个 编码 符号 期 望 的 位 数 是 符号 源 的 箭 的 常数 因子 倍 ) Golomb 
编码 由 Golomb (1966) 在 一 篇 颇 有 娱乐 性 质 的 短文 中 提出 的 ， 短 文 是 关于 “特工 00111” 
轮 盘 游戏 的 。 捕 值 编码 由 Moffat 和 Stuiver (2000) 提出 ， 除 了 可 以 用 于 倒 排 文件 压缩 ， 他 
们 还 指出 了 其 他 一 些 应 用 ， 如 高 效 地 表示 哈 夫 曼 编码 〈 即 编码 器 使 用 的 码 的 描述 ) ， 以 及 编 
码 用 基于 Burrows- Wheeler 变换 的 压缩 算法 中 的 前 移 值 。 

字 节 对 齐 压缩 算法 如 vByte (6.3.4 47) 最 先 由 Williams 和 Zobel (1999) 进行 学 术 研 
究 ， 但 很 久之 前 就 开始 使 用 了 。Trotman (2003) 基于 磁盘 索引 对 压缩 效果 和 解码 效率 之 间 
的 平衡 关系 进行 了 研究 ， 证 明 可 变 字 节 编 码 通常 比 按 位 编码 可 获得 更 好 的 查询 性 能 。Scho- 
ler 等 人 (2002) 得 到 同样 地 结论 ， 但 他 们 还 证 明了 字 节 对 齐 压 缩 方 案 有 时 还 能 改进 未 压缩 
的 内 存 (in-memory) 索引 。 在 最 近 的 研究 中 ，Biittcher 和 Clarke (2007) 表明 即便 搜索 引 
擎 的 索引 访问 模式 是 完全 随机 的 ， 这 个 观点 也 是 正确 的 。 

Blandford 和 Blelloch (2002) 最 早 研 究 了 对 文档 重 排 以 获得 更 好 的 压缩 率 ， 他 们 的 方 
法 基于 聚 类 方法 ， 尽 量 将 相近 的 文档 编号 分 配给 内 容 相似 的 文档 。 与 他 们 的 研究 不 同 ， 
Shieh 等 人 【2003) 提出 了 一 种 类 似 的 方法 ， 将 文档 重 排 约 减 为 旅行 商 问题 《TSP)。Silves- 
tri (2007) 提出 了 根据 文档 的 URL 对 文档 进行 排序 以 提高 压缩 效果 的 想法 。 


6.7 练习 

练习 6.1 考虑 符号 集 S 一 {*a”,“b2”} 的 概率 分 布 为 ， Pr[“a”] 二 0. 8, Pr[“b”] 二 0.2。 当 对 S 上 的 消息 编 
码 时 ， 假 定 将 符号 分 成 块 ， 每 块 包含 m= 二 2 个 符号 (得 到 新 的 分 布 PrL“aa”j] 二 0. 64, Pr[“ab”]=0. 16 等 )。 
为 这 个 新 分 布 构造 一 棵 哈 夫 曼 树 。 

练习 6.2 证 明码 是 无 前 缀 码 〈 即 不 存在 一 个 码 字 是 另外 一 个 码 字 的 前 缀 )。 

练习 6.3 给 出 不 是 无 前 级 码 的 无 二 义 二 元 码 的 一 个 例子 。 在 什么 样 的 概率 分 布下 ， 这 个 码 是 最 优 的 ? 
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为 同一 分 布 构造 一 个 最 优 无 前 缀 码 。 

练习 6.4 写 出 w 码 的 解码 过 程 〈 见 6. 3. 1 节 )。 

练习 6.5 找 出 最 小 的 整数 n。， 使 得 对 于 所 有 满足 n>n 的 整数 对 应 的 w 码 的 表示 长 度 比 对 应 的 人 码 
要 短 。 注 意 mm 可 能 非常 大 C>2™)。 

练习 6.6 给 定 词 项 T 的 位 置信 息 列表 服从 几何 分 布 ， 且 Nr/N==0.01， 当 参数 时 M 一 2 ， 使 用 Rice 
编码 压缩 这 个 位 置信 息 列 表 ， 每 个 码 字 的 期 望 位 数 是 多 少 ? 

练习 6.7 考虑 一 个 间距 服从 几何 分 布 的 位 置信 息 列 表 ， 间 距 的 平均 大 小 为 N/Nr=137 CB p= 
0.0073)。 如 果 使 用 Golomb 编码 ， 最 优 的 参数 值 M 为 多 少 ? 如 果 使 用 Rice 编码 ， 最 优 的 参数 值 M8 为 多 
少 ? 如 果 使 用 最 优 的 Rice 编码 代替 Golomb 编码 ， 那 么 平均 会 浪费 多 少 位 ? 如 果 使 用 最 优 的 Golomb 编码 代 
替 算术 编码 ， 那 么 平均 又 会 浪费 多 少 位 ? 

练习 6.8 在 6.2.2 节 中 ， 我们 讨论 了 如 何在 (nlog(Cn)) 时 间 内 构建 一 棵 哈 夫 曼 树 ， 其 中 %w 二 |1S | 为 
输入 字母 表 的 大 小 。 现 在 假定 6S 中 的 符号 在 到 达 编 码 器 之 前 已 经 根据 它们 的 概率 排序 。 设 计 一 个 能 够 在 @(n) 
时 间 内 构建 一 棵 哈 夫 曼 树 的 算法 。 

练习 6.9 6.3.4 节 介绍 的 Simple-9 压缩 方法 将 A-value 序列 存 人 32 位 的 机 器 字 中 ， 预 留 4 位 保存 选择 
器 值 。 考 虑 一 个 类 似 的 方法 ， Simple-14， 使 用 64 位 的 机 器 字 。 假 定 每 64 位 字 中 预 留 4 位 来 保存 选择 器 值 ， 
列举 对 余下 的 60 位 进行 划分 的 所 有 方法 。 你 认为 这 两 种 方法 中 哪 一 种 在 典型 的 文档 编号 索引 上 能 够 产生 更 
好 的 压缩 效果 ? 描述 在 哪 种 类 型 的 文档 编号 列表 上 ，Simple-9 th Simple- 14 会 获得 更 好 的 /更 差 的 结果 。 

练习 6.10 6.3.7 节 介 绍 的 文档 重 排 方法 中 ， 有 一 种 是 按照 文档 的 URL 的 字母 顺序 分 配 数 字 文档 标识 
符 的 。 是 否 存在 另外 一 种 也 是 基于 文档 URL， 但 可 以 获得 更 好 的 压缩 率 的 方法 ? 考虑 URL 的 组 成 部 分 ， 想 
想 可 以 怎么 利用 它们 ? 

练习 6.11 (项 目 练习 ) “对 你 已 实现 的 倒 排 索引 数据 结构 使 用 索引 压缩 。 实 现 6.3.4 节 中 的 字 节 对 齐 
vByte 方 法 以 及 7 编码 (6.3.1 节 ) 或 Simple-9 (6.3.4 W) 中 的 一 种 。 你 的 新 索引 必须 以 压缩 形式 存储 所 有 
的 位 置信 息 列 表 。 
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动态 倒 排 索引 


在 第 4 章 中 ， 当 我 们 讨论 如 何在 给 定 的 文档 集 上 构建 倒 排 索引 时 ， 许 多 观点 都 是 基于 这 
样 一 个 假设 一 一 文档 集 是 静态 的 (static〉 且 在 构建 索引 过 程 中 以 及 索引 构建 完 之 后 都 不 发 
生 改 变 。 显 然 ， 这 个 假设 并 不 总 是 成 立 的 。 在 很 多 应 用 中 ， 可 以 预料 到 文档 集 是 会 随 着 时 间 
而 发 生 改 变 的 。 如 文件 系统 、 数 字 图 书馆 以 及 Web 都 是 动态 (dynamic) 文档 集 的 实例 。 

动态 文档 集 一 般 允 许 有 三 种 类 型 的 操作 : 文档 插入 、 删 除 以 及 修改 。 为 动态 文档 集 构 建 
倒 排 索引 时 需 考虑 数据 的 易 变性 ， 并 采取 恰当 的 策略 保持 索引 与 文档 集 一 致 。 这 种 索引 维护 
策略 (index maintenance strategy) 是 本 章 讨论 的 主题 。 

本 章 第 一 部 分 (7. 1 节 )， 我 们 讨论 如 何 处 理 半 静态 的 文档 集 。 半 静态 文档 集 人 允许 插入 
和 删除 操作 (将 文档 修改 视 为 删除 后 再 插入 新 文档 )， 但 索引 不 需要 立即 反映 出 文档 集中 的 
变化 。 相 反 ， 几 个 小 时 甚至 几 天 的 短暂 延迟 都 是 可 以 容忍 的 。Web 搜索 引擎 一 般 将 Web 上 
的 大 部 分 的 内 容 当 做 是 一 个 半 静 态 的 文档 集 ; 一 个 新 的 Web 页 面 可 能 要 过 几 天 或 者 几 周 才 
会 被 加 入 到 搜索 引擎 的 索引 中 〈 但 受 欢迎 的 页 面 ， 如 www. whitehouse.gov， 通 常 都 会 被 频 
繁 地 重 索引 ) 。 

第 二 部 分 (7. 2 节 ) 主要 关注 增 量 (incremental) 文档 集 。 增 量 文 档 集 允许 新 文档 加 入 
到 文档 集中 。 然 而 ， 现 有 的 文档 不 允许 修改 或 删除 。 我 们 评价 了 几 种 增 量 文档 集 的 索引 更 新 
策略 ， 结 果 表 明 将 索引 分 割 成 多 个 独立 的 子 索 引 (“索引 分 区 ”〉 能 够 使 搜索 引擎 在 高 效 更 新 
索引 结构 的 同时 不 会 对 查询 性 能 造成 不 合理 的 影响 。 这 种 方法 可 用 于 将 索引 保持 在 最 新 的 状 
态 ， 即 使 比较 频繁 地 加 人 新 文档 也 是 适用 的 。 

在 本 章 第 三 部 分 ， 我 们 讨论 非 增 量 (non-incremental) 动态 文档 集 的 索引 更 新 策略 ， 这 
种 文档 集 支持 全 部 的 更 新 操作 : 揪 和 信 、 删 除 和 修改 。 在 7. 3 节 中 ， 我 们 展示 了 如 何 实现 一 个 
懒惰 的 删除 过 程 ， 它 并 不 立即 将 位 置信 息 从 索引 中 删除 ， 而 只 是 标识 这 些 文档 已 被 删除 ， 定 
期 执行 的 垃圾 回收 操作 将 清理 索引 并 删除 所 有 的 垃圾 位 置信 息 。7. 4 节 讨 论 了 如 果 搜 索引 擎 
必须 支持 文档 修改 〈 例 如 追加 操作 ) ， 那 么 搜索 引 警 的 索引 结构 需要 进行 哪些 修改 。 我 们 指 
出 了 在 这 样 的 情况 下 会 出 现 的 一 些 困难 。 我 们 的 讨论 解释 了 为 何 搜索 引擎 一 般 不 直接 支持 文 
档 修 改 ， 而 将 它 视 为 是 删除 后 插入 的 组 合 操作 一 一 就 算 这 样 对 于 长 文档 而 言 相当 低 效 。 

与 第 4 章 一 样 ， 贯 穿 本 章 的 基本 假设 是 : 内 存 资源 相对 于 索引 大 小 来 说 非常 稀少 ， 因 此 
大 部 分 的 索引 数据 需要 保存 在 磁盘 上 。 对 于 有 大 量 内 存 资 源 的 大 规模 搜索 引擎 ， 可 能 这 里 讨 
论 的 技术 不 那么 适用 ， 但 基本 问题 的 共性 无 论 在 哪 种 情况 下 〈 基 于 磁盘 和 基于 内 存 ) 通常 都 
是 非常 相似 的 。 


7.1 批量 更 新 


在 一 些 应 用 中 ， 索 引 不 立刻 对 文档 集 的 更 新 做 出 反应 是 可 以 接受 的 。 在 使 用 一 次 性 批量 
更 新 (batch update) 操作 将 所 有 新 数据 加 入 到 索引 之 前 ， 索 引 过 程 可 能 会 等 上 一 阵子 ， 不 
断 收 集 新 的 文档 。 在 Web 搜索 中 ， 这 是 一 种 典型 的 索引 更 新 方式 ， 新 的 网 页 可 能 要 经 过 几 
天 或 几 周 才 会 加 入 到 主流 Web 搜索 引擎 的 索引 中 。 对 一 个 已 有 的 索引 进行 批量 更 新 有 两 种 
实现 方法 : 
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。 从 头 开 始 建立 一 个 新 的 索引 。 当 索引 构建 完成 时 ， 旧 的 索引 被 删除 ， 用 新 的 索引 来 
取代 。 这 个 过 程 被 称 为 REBUILD 更 新 策略 。 

。 根据 新 插 人 的 文档 内 容 构建 一 个 索引 。 当 这 个 索引 被 构建 完 之 后 ， 它 将 与 原始 的 索 
引进 行 合并 ， 得 到 一 个 新 的 索引 ， 并 取代 原来 的 索引 。 这 个 过 程 被 称 为 REMERGE 
更 新 策略 。REMERGE 更 新 策略 中 的 合并 操作 实现 的 方式 本 质 上 与 基于 合并 的 索引 
构建 过 程 的 最 后 一 步 合 并 操作 是 一 样 的 〈 见 4. 5. 3 节 )。 

哪 种 策略 更 好 ，REBUILD 还 是 REMERGE? 从 开发 者 的 角度 来 看 ，REBUILD 更 具有 
吸引 力 ， 因 为 它 更 容易 实现 。 然 而 ，REUBILD 需要 解析 和 重 索 引文 档 集 中 的 所 有 文档 ， 无 
论 它们 是 否 已 经 被 索引 过 。 而 采用 REMERGE， 我 们 可 以 重用 已 有 的 索引 中 的 数据 ， 因 此 
比 REBUILD 可 能 更 具有 潜在 的 性 能 优势 。 

如 果 批 量 更 新 中 只 有 文档 揪 人 〈 没 有 删除 操作 )， 那 么 很 明显 REMERGE 策略 比 RE- 
BUILD 具有 更 好 的 性 能 。 然 而 ， 如 果 更 新 操作 不 是 严格 地 只 增添 文档 ， 而 同时 有 插 人 和 删 
除 ， 那 么 情况 就 不 那么 明朗 了 。 在 这 种 情况 下 ，REMERGE 需要 花 一 定 的 时 间 来 读 取 和 解 
码 被 删除 的 文档 的 位 置信 息 ， 这 些 位 置信 息 不 会 被 包括 在 新 的 索引 中 。 而 REBUILD 永远 不 
用 处 理 这 些 位 置信 息 ， 因 此 比 REMERGE 具有 潜在 的 优势 。 

假设 初始 索引 Toa 中 包含 有 dua 个 文档 的 位 置信 息 ， 这 些 文档 的 大 小 均等 。 进 一 步 假设 
批量 更 新 中 包含 有 dice KIRA diwwer 次 插入 。 在 批量 更 新 之 后 ， 新 的 索引 Te 将 包含 

d new = A od — d delete + insert (7-1) 
个 文档 的 位 置信 息 。REBUILD 构建 索引 I 所 需 的 时 间 仅 由 dsow 决 定 。 使 用 第 4 章 中 的 基 
于 合并 的 索引 构建 方法 ， 构 建 few 所 需 的 时 间 为 


UUME emia Lola» dacetes Ainet) =C * Anew 


(7-2) 
= * Cdad— Gaelete T C insert ) 
其 中 c 为 系统 指定 的 常数 。 
如 果 使 用 REMERGE 策略 ， 构 建 fewv 的 时 间 又 为 多 少 昵 ? 答案 取决 于 搜索 引擎 中 建立 
索引 和 合并 索引 操作 的 相对 性 能 。 根 据 表 4 7， 我 们 知道 在 基于 合并 的 索引 构建 中 ， 为 
GOV2 建立 一 个 全 文 索 引 ， 最 后 一 步 合 并 操作 占 全 部 时 间 的 25% 。 其 余 75 多 的 时 间 花 在 解 
析 文档 和 构建 子 索 引 上 。 因 此 ，、 我 们 可 以 认为 使 用 REMERGE 为 文档 集 构 建 一 个 新 的 索引 
所 需 的 总 的 时 间 大 约 为 


EUME remerge (Cota » d delete » insert ) = C . diae HE ° Cd sat d insert? (7-3) 


其 中 第 一 个 被 加 数 对 应 为 diwer 个 新 到 来 的 文档 建立 索引 Tu 所 需 的 时 间 代 价 ， 第 二 个 被 加 
数 对 应 合并 Tua 与 Tnen 得 到 新 索引 Tu 所 需 的 时 间 代 价 。 

公式 (1-3) 没有 考虑 到 这 里 执行 的 合并 操作 比 4. 5. 3 节 的 合并 操作 稍微 长 一 些 ， 因 为 
这 里 的 合并 操作 不 只 是 合并 位 置信 息 列 表 ， 还 需要 回收 那些 被 删除 文档 的 位 置信 息 。 然 而 ， 
为 简单 起 见 ， 我 们 假设 这 部 分 的 代价 可 忽略 不 计 ， 因 此 合并 操作 的 速度 实际 上 是 重建 索引 操 
作 速 度 的 4 倍 《〈7. 3 节 合理 地 分 析 了 删除 操作 对 更 新 索引 性 能 的 影响 )。 基 于 这 种 假设 ， 当 
满足 如 下 条 件 时 : 


time rebuild CC ota » d delete » d insert ) = TIME remerge (Cota » OQ delete » d insert ) (7-4) 


S duda + dinar = Cina + * doat diner) (7-5) 
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© da= . du 一 于 ° d insert (7-6) 
REBUILD 和 REMERGE 具有 相同 的 性 能 。 

尽管 文档 集 一 直 在 改变 ， 但 是 它们 还 是 会 有 一 个 稳定 状态 (steady state)， 也 就 是 说 ， 
插入 的 文档 数 等 于 删除 的 文档 数 dinen 二 duaee)。 事 实 上 ， 这 是 很 常见 的 ， 因 为 许多 文档 集 
尽管 可 能 会 有 大 量 的 更 新 操作 ， 但 是 相对 于 文档 集 总 的 大 小 来 说 ， 增 长 速度 非常 慢 。 公 式 


《7-6) 可 以 化 简 为 : 
dice = ° dod (7-7) 


所 以 ， 如 果 至 少 有 60% 的 文档 从 旧 的 索引 中 删除 且 再 也 不 出 现在 新 的 索引 中 ， 那 么 RE- 
BUILD 策略 比 REMERGE 策略 更 加 有 效 。 如 果 删 除 的 比例 不 到 60 多 ， 那 么 REMERGE 将 
会 是 更 好 的 选择 。 

在 大 多 数 应 用 中 ， 连 续 的 两 次 批 处 理 更 新 所 删除 的 相对 文档 数 远 小 于 60% 。 这 不 一 定 
是 因为 文档 集 变化 得 很 慢 ， 而 是 因为 如 果 搜 索引 擎 检索 结果 集 指 向 的 文档 总 是 不 存在 ， 那 么 
这 样 的 搜索 引擎 对 用 户 而 言 就 没什么 用 了 。 为 确保 用 户 满意 ， 快 速 变化 的 文档 集 需 要 更 频繁 
的 索引 更 新 。 因 此 实际 上 ，REMERGE 通常 比 REBUILD 的 结果 要 好 。 

鉴于 每 个 具有 基于 合并 的 索引 构建 过 程 的 搜索 引 警 〈 见 4. 5. 3 节 ) 都 自动 地 具有 合并 两 
个 倒 排 文件 的 能 力 ， 所 以 ， 没 有 理由 选择 REBUILD 而 不 选择 REMERGE。 因 为 RE- 
MERGE 比 REBUILD 要 快 很 多 ， 所 以 它 使 得 索引 更 新 周期 更 短 ， 因 此 索引 比较 新 。 不 可 和 否 
认 的 是 ， 由 于 需要 支持 文档 删除 和 合并 操作 ， 因 此 REMERGE 更 新 策略 比 在 基于 合并 的 索 
引 构 建 过 程 中 的 最 后 一 步 合 并 操作 要 稍微 复杂 些 。 然 而 这 个 调整 也 不 会 太 复杂 。7. 3 节 讨 论 
从 已 有 的 索引 中 删除 垃圾 位 置信 息 的 方法 。 


7.2 增 量 式 索 引 更 新 


上 一 节 描 述 的 批量 更 新 策略 可 能 适用 于 某 些 特定 的 应 用 ， 在 多 数 搜索 环境 中 ， 搜 索引 擎 
的 索引 还 是 需要 及 时 反映 文档 集 当 前 的 内 容 。 例 如 网 络 新 闻 搜 索 、 文 件 系统 搜索 以 及 互联 网 
BAW AL BwoM ebay?) 所 使 用 的 专用 搜索 系统 都 是 这 样 。 所 有 这 些 例子 中 ， 一 旦 检 
测 到 文档 集 的 变化 ， 索 引 必须 立即 更 新 。 这 时 批量 更 新 策略 就 不 再 适用 了 。 本 节 我 们 将 讨论 
如 果 文 档 集 是 严格 增 量 的 ， 那 么 这 个 目标 如 何 实现 。 严 格 增 量 是 指 只 人 允许 新 文档 的 加 入 ， 而 
不 允许 已 有 文档 的 修改 和 删除 。 

回顾 4. 5. 1 节 介绍 的 由 基于 哈 希 的 内 存 索引 构建 方法 构建 的 索引 结构 。 这 个 索引 的 骨干 
结构 是 一 个 基于 内 存 的 哈 希 表 ， 将 词 项 字符 串 映射 为 对 应 的 位 置信 息 列表 的 内 存 地 址 。 尽 管 
这 个 数据 结构 最 初 是 为 满足 索引 过 程 的 特殊 需要 而 提出 的 ， 但 它 同样 可 以 用 于 查询 处 理 。 

当 搜 索引 擎 在 构建 索引 时 ， 假 设 在 创建 完 n 个 磁盘 索引 分 区 后 ， 我 们 想 让 搜索 引擎 处 
理 一 条 包含 m 个 查询 词 项 的 关键 字 查询 。 这 可 通过 对 这 m 个 词 项 重复 以 下 过 程 来 实现 : 

D 从 这 个 n 磁盘 索引 分 区 的 每 一 块 中 取出 这 个 词 项 的 位 置信 息 列表 片段 。 

2) 使 用 内 存 哈 希 表 取 出 词 项 在 内 存 中 的 位 置信 息 列 表 片段 。 

D 连接 这 勾 十 1 个 片段 得 到 这 个 词 项 的 位 置信 息 列 表 。 


© www.amazon.com 
© www.ebay.com 
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图 7-1 描述 了 这 一 过 程 。 这 个 过 程 总 共 需 要 mn 次 随机 磁盘 读 取 。 我 们 将 这 一 过 程 称 为 
NO MERGE 索引 更 新 策略 ， 接 下 来 会 介绍 原因 。 


- i 
列表 片段 1 
使 用 位 置信 息 Bakis 


SOE 












A 
三 添加 位 置信 息 


新 文档 


内 存 索引 (构建 中 ) 


图 7-1 将 离线 的 基于 合并 的 索引 构建 转换 成 为 一 种 在 线 的 索引 维护 策略 CNO 
MERGE) 。 从 内 存 中 正在 构建 的 索引 以 及 之 前 构建 的 磁盘 索引 中 取出 每 个 查 
询 词 项 的 位 置信 息 列 表 。 通 过 连接 多 个 列表 片段 得 到 最 终 的 倒 排 列表 


尽管 NO MERGE 可 以 用 于 将 静态 文档 集 上 的 离线 索引 构建 方法 转换 为 同时 允许 文档 揪 
人 和 搜索 查询 的 在 线 方法 ， 但 它 并 不 是 一 个 好 的 策略 ， 因 为 处 理 搜 索 查询 时 需要 大 量 的 磁盘 
寻 道 〈 每 个 查询 词 项 和 索引 分 区 都 要 一 次 寻 道 )。 如 果 索 引 分 区 的 数量 很 大 ， 那 么 NO 
MERGE 的 查询 性 能 就 非常 差 。 尽 管 如 此 ， 这 个 方法 为 其 他 更 复杂 的 策略 提供 了 一 个 基准 。 

本 节余 下 部 分 ， 我 们 将 讨论 几 种 增 量 式 文档 集 的 索引 更 新 策略 。 这 些 策略 都 是 基于 同一 
个 想法 ， 也 是 NO MERGE 策略 的 基础 ， 对 新 文档 建立 索引 ， 就 像 它们 是 静态 文档 集 的 一 部 
分 一 样 ， 然 后 通过 连接 查询 词 项 在 磁盘 索引 和 内 存 索 引 中 的 位 置信 息 列表 来 处 理 查 询 。 然 而 
与 NO MERGE 不 同 ， 这 些 策略 的 目标 是 通过 将 小 的 列表 片段 组 合成 大 的 列表 ， 使 磁盘 索引 
中 的 片段 数量 保持 在 比较 低 的 水 平 。 


7.2.1 连续 倒 排列 表 


保证 磁盘 位 置信 息 列表 片段 比较 少 的 最 有 效 方法 是 ， 不 允许 为 一 个 列表 片段 已 在 索引 中 
的 词 项 创建 新 的 磁盘 列表 片段 。 这 可 通过 
两 个 完全 不 同 的 方法 来 实现 : 合并 更 新 和 
就 地 更 新 。 

1. 合并 更 新 


buildIndex_ImmediateMerge (M) = 
Imem — 0 // 初始 化 内 存 索引 


currentPosting — 1 

while 还 有 符号 单元 需 索 引 do 
T — next token 
Imem.addPosting(T, currentPosting) 
currentPosting — currentPosting + 1 


回顾 7. 1 节 介 绍 的 REMERGE 策略 。 
REMERGE 不 仅 可 用 于 半 静 态 文档 集中 if Imem 包含 多 于 M-1 个 符号 单元 then 

的 批量 更 新 操作 ， 而 且 还 可 用 于 增 量 式 Pe ea eesti ds Gosh 
文档 集 的 索引 更 新 策略 。 搜 索引 擎 处 索 spe 

引 模块 就 像 在 静态 文档 集中 那样 处 理 新 Im 0 1) RENKI] 

的 文档 。 与 静态 文档 集 不 同 的 是 ， 每 当 i 

索引 器 耗 尽 内 存 时 ， 就 合并 内 存 中 累积 ”图 7-2 #4 IMMEDIATE MERGE 的 在 线索 引 构 建 
的 数据 和 磁盘 上 已 有 的 索引 ， 从 而 创建 方法 。mergelIndices 过 程 如 图 4-13 所 示 


1 
2 
3 
4 
5 
6 
7 
8 
9 
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一 个 新 的 磁盘 索引 。 一 般 过 程 如 图 7-2 所 示 。 

将 有 旧 的 索引 数据 与 内 存 中 的 数据 合并 需要 搜索 读 取 引 苟同 时 读 出 已 有 的 磁盘 索引 和 写 人 
新 的 索引 。 以 大 块 的 方式 读 / 写 所 有 的 数据 ， 一 次 可 能 若干 兆 字 节 ， 非 顺序 磁盘 操作 的 数量 
《在 新 旧 索 引 中 切换 ) 可 以 维持 在 比较 低 的 水 平 ， 整 个 更 新 操作 得 以 高 效 的 执行 。 

在 实时 〈 非 批量 ) 更 新 的 环境 下 ，REMERGE 有 时 也 被 称 为 IMMEDIATE MERGE, 
以 区 别 于 其 他 基于 合并 的 更 新 策略 ， 这 些 策略 在 索引 过 程 耗 尽 内 存 时 不 总 是 执行 合并 操作 。 

为 了 量化 比较 IMMEDIATE MERGE 和 NO MERGE 性 能 上 的 不 同 ， 以 及 说 明 连 续 的 
方式 对 于 存储 磁盘 位 置信 息 列 表 的 重要 性 ， 我 们 让 搜索 引擎 索引 GOV2 文档 集中 的 2520 万 
个 文档 ， 使 用 大 约 800 MB 的 内 存 预算 〈 足 以 建立 一 个 250 000 个 文档 的 内 存 索 引 ) 。 只 要 系 
统 耗 尽 内 存 ， 就 立即 执行 一 个 磁盘 索引 更 新 ， 合 并 内 存 索引 和 已 有 的 磁盘 索引 ， 然 后 再 处 理 
1000 个 搜索 查询 。 

图 7-3 给 出 了 这 两 种 索引 更 新 策略 中 每 个 查询 的 平均 时 间 。 不 出 所 料 ， 由 于 IMMEDIATE 
MERGE 总 是 以 连续 的 方式 处 理 磁盘 位 置信 息 列表 ， 因 此 比 NO MERGE 展现 了 更 好 的 查询 性 
能 。 但 是 有 点 出 平 意 料 的 是 , BENO 1 
MERGE 好 出 一 大 截 。 在 整个 文档 集 都 NE a 
被 索引 后 ，NO MERGE 比 IMMEDI- 8 一 一 IMM. MERGE(M-250k 个 文档 ) 77 
ATE MERGE 慢 了 整整 7 倍 (IMMEDI- na 
ATE MERGE 需 690 ms, NO MERGE 
7E5100 ms). 

是 什么 造成 了 如 此 巨大 的 差距 ? 
内 存 巴 算 足 够 索引 250 000 个 文档 ， 
NO MERGE 在 GOV2 累积 了 100 个 


平均 查询 响应 时 间 (s) 
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磁盘 索引 分 区 ， 使 得 每 个 查询 词 项 都 文档 索引 (x105) 
几乎 需要 100 次 随机 磁盘 寻 道 。 每 次 图 7. 3 IMMEDIATE MERGE 和 NO MERGE 的 平均 查询 性 
随机 访问 的 代价 大 约 是 12 ms 磁盘 能 ， 这 个 性 能 是 索引 大 小 的 函数 。 文 档 集 ，GOV2 
寻 道 加 上 旋转 延迟 )， 每 个 查询 平均 (2520 万 个 文档 ) 。 查 询 集 : 来 自 TREC TB 2006 的 随 
包含 3. 5 个 词 项 ， 我 们 估计 每 次 查询 机 查询 ， 使 用 邻近 度 排名 方法 进行 评价 〈2.2.2 节 ) 
的 总 开销 为 : 

12 ms。100。3.5 一 4200 ms (7-8) 


tt IMMEDIATE MERGE 每 个 查询 仅 需 690 ms T ?7 倍 。 这 个 计算 结果 表明 NO MERGE 
的 实用 性 存在 一 些 基本 的 限制 。 即 使 我 们 将 内 存 预 算 增加 到 原来 的 5 倍 ， 仍 然 会 得 到 20 个 
索引 分 区 ， 每 个 查询 随机 访问 的 开销 大 概 也 有 800 ms。 相 反 ， 如 果 索 引 过 程 的 内 存 预 算 减 
少 ， 查 询 性 能 将 会 变 得 无 法 接受 ， 正 如 图 7-3 Prax, 文档 数 M=100 000, 

遗憾 的 是 ， 尽 管 与 NO MERGE 策略 相 比 具有 明显 的 优势 ,但 IMMEDIATE MERGE 
并 不 是 解决 索引 更 新 问题 的 最 终 办 法 。 每 当 案 引 过 程 耗 尽 内 存 时 ， 它 都 要 从 磁盘 中 读 出 整个 
索引 ， 将 其 与 内 存 索引 进行 合并 ， 然 后 再 写 回 磁盘 。 久 而 久之 ， 这 个 策略 所 需要 的 读 / 写 操 
作 次 数 将 是 文档 集 大 小 的 平方 。 

假设 索引 过 程 将 M 个 位 置信 息 缓 存在 内 存 中 ， 为 一 个 包含 N 个 词 条 的 文档 集 建立 索 
引 。 当 第 一 次 内 存 耗 尽 时 ，M 个 位 置信 息 将 被 传送 到 磁盘 。 当 第 二 次 内 存 耗 尽 时 ， 这 M 个 . 
位 置信 息 就 被 加 载 人 内 存 ， 与 当前 内 存 中 的 索引 进行 合并 ， 然 后 2M 个 位 置信 息 又 写 回 磁 
盘 。 因 此 ， 对 于 具有 NN 个 词 条 的 文档 集 ， 传 出 /传人 磁盘 的 位 置信 息 总 数 为 : 
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LN/M] LN/M| 
> (k-1)M+kM=M. Ý (2k-1) (7-9) 


k=1 k=1 


2 
mM. (Z) <0(7) (7-10) 
如 果 可 用 内 存 容量 相对 于 文档 集 整体 大 0 o gm 
小 来 说 较 小 ， 那 么 这 个 平方 复杂 度 会 使 。 。 4 A IMMMERGE (M250k 个 文 7" 


一 一 NO MERGE (M=250k 个 文档 ) e 


Il 


IMMEDIATE MERGE 变 得 不 适用 ， 
正如 图 7-4 所 示 ， 图 中 给 出 了 NO 
MERGE 和 IMMEDIATE MERGE 随 
着 索引 大 小 的 增加 ， 对 应 的 累加 索引 更 
新 代价 。 就 算 一 个 大 小 适中 的 内 存 预 算 
为 800 MB (A250 000 个 文档 ) IM- 

MEDIATE MERGE 也 比 NO MERGE mi o 


4 多 6 阁 。 
要 慢 大 约 6 fi 图 7-4 IMMEDIATE MERGE 和 NO MERGE 策略 的 


2. 就 地 更 新 
a 累加 索引 更 新 代价 ， 它 是 索引 大 小 的 函数 。 数 
就 地 索引 更 新 策略 试图 突破 IM- HÆ: GOV2 (2520 万 个 文档 ) 


MEDIATE MERGE 的 限制 ， 当 内 存 耗 

尽 时 它 不 需要 搜索 引 苟 从 磁盘 中 读 出 整个 索引 。 相 反 ， 磁 盘 索引 更 新 的 时 候 只 要 有 位 置信 息 
列表 写 到 磁盘 ， 就 在 这 个 位 置信 息 列表 的 末端 预 留 一 些 空间 。 随 后 只 要 同一 个 词 项 的 位 置信 
息 需 要 传输 到 磁盘 ， 就 在 已 有 列表 的 末端 进行 扩展 。 如 果 这 个 列表 末端 的 空间 不 够 存储 到 来 
的 新 位 置信 息 了 ， 那 么 整个 列表 就 被 重新 装载 到 磁盘 索引 的 另 一 个 新 位 置 ， 这 个 位 置 足够 放 
下 旧 索 引 和 新 索引 。 图 7-5 给 出 了 这 个 一 般 过 程 的 一 个 实例 。 


累加 更 新 代价 (s) 








图 7-5 预 分 配 的 就 地 索引 更 新 策略 。 在 词 项 Ts 的 磁盘 位 置信 息 列表 末端 没 
有 足够 的 空间 来 存储 新 的 位 置信 息 。 这 个 列表 必须 重新 放 在 另外 一 个 
位 置 


不 同 的 就 地 更 新 策略 的 区 别 主要 在 于 它们 为 给 定 列表 末端 预 留 空 间 的 方式 不 同 。 最 常见 
的 方式 OM 4. 5.1 节 中 你 已 经 了 解 它 了 ) 是 按 比例 预 分 配 (proportional pre-allocation) 。 假 
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设 一 个 大 小 为 b 字 节 的 位 置信 息 列 表 L 被 传送 到 磁盘 〈 或 重 装载 到 一 个 新 位 置 ) 。 搜 索引 擎 
为 工 预 留 k。b 字 节 的 总 空间 。 也 就 是 说 ， 这 个 列表 末端 的 (Kk 一 1)。b 字 节 可 用 于 未 来 的 位 
置信 息 。 一 般 预 分 配 因 子 k=1.5 或 k= 二 2。 与 其 他 预 分 配 策 略 相 比 ， 如 在 列表 末端 预 留 常 
数 个 字 节 ， 按 比例 预 分 配 的 优势 在 于 重 装载 操作 中 的 磁盘 读 / 写 字 节 数 与 列表 最 终 的 大 小 是 
线性 关系 〈 见 练习 7. 2)。 在 本 节 的 后 面部 分 ,我们 把 按 比例 预 分 配 的 就 地 更 新 策略 简单 地 
称 为 INPLACE, 

因为 对 于 给 定 列表 ，INPLACE 传人 / 传 出 磁盘 的 总 字 节 数 与 这 个 列表 的 大 小 成 线性 关 
系 ， 所 以 我 们 可 以 知道 为 整个 倒 排 索引 传人 / 传 出 磁盘 的 总 字 节 数 与 索引 的 大 小 成 线性 关 
系 。 这 似乎 意味 着 INPLACE 可 以 比 平方 磁盘 复杂 度 的 IMMEDIATE MERGE 获得 更 好 的 
更 新 性 能 。 但 事实 并 非 如 此 。 就 地 更 新 策略 需要 大 量 的 非 顺 序 磁 盘 访 问 模式 ， 即 耗 时 的 
随机 访问 磁盘 操作 。 因 此 ， 粗 略 估 计 传 人 / 传 出 磁盘 的 数据 量 并 不 能 体现 整体 的 更 新 
性 能 。 

回顾 图 7-5 的 例子 。 因 为 内 存 索 引 中 没有 足够 的 空间 存储 新 的 位 置信 息 ， 词 项 T 的 位 
置信 息 列表 必须 重 装载 。 重 装载 这 个 列表 需要 两 个 随机 磁盘 访问 ， 一 个 用 于 从 旧 位 置 读 出 原 
始 列表 ， 另 一 个 用 于 将 扩展 之 后 的 列表 (包含 了 内 存 索 引 中 的 位 置信 息 ) 写 到 新 的 位 置 。 我 
们 实验 中 用 到 的 硬盘 〈 见 附录 AD 执行 一 次 随机 磁盘 访问 的 代价 与 顺序 读 或 写 1 MB 数据 的 
代价 相当 。 

因为 大 部 分 位 置信 息 列 表 都 非常 短 〈 齐 夫 定 律 )，INPLACE 的 非 顺 序 访问 索引 方式 对 
它 的 更 新 性 能 有 灾难 性 的 影响 。 例 如 ， 就 地 更 新 100 000 个 非常 短 的 位 置信 息 列表 需要 大 约 
20 分 钟 〈 假 设 每 个 列表 需 一 次 磁盘 寻 道 ) 。 如 果 按 照 顺 序 的 读 / 写 方式 ， 更 新 这 些 位 置信 息 
列表 〈 作 为 合并 更 新 的 一 部 分 ) 只 需 几 秒 。 

有 很 多 关于 索引 维护 方面 的 文献 优化 了 基本 的 INPLACE 策略 ， 例 如 ，Shieh 与 Chung 
(2005) 以 及 Lester 等 人 (2006)。 提 出 的 方法 效果 在 文献 里 已 有 讨论 ， 我 们 把 关注 点 放 在 
一 种 更 基本 的 减少 整体 更 新 开销 的 方法 : 将 INPLACE 和 IMMEDIATE MERGE 结合 在 一 
起 ， 得 到 混合 (hybrid〉 更 新 策略 。 

3. 混合 索引 维护 

INPLACE 和 IMMEDIATE MERGE 相 比 ， 我 们 可 以 说 INPLACE 的 主要 缺陷 在 于 需 
要 相对 多 次 的 磁盘 寻 道 ， 而 IMMEDIATE MERGE 的 主要 缺陷 在 于 搜索 引擎 的 内 存 耗 尽 时 
需要 将 整个 磁盘 索引 读 出 / 写 人 。 有 可 能 设计 这 样 一 种 更 新 策略 : 通过 为 每 个 位 置信 息 列 表 
而 不 是 整个 索引 选择 使 用 INPLACE 或 IMMEDIATE MERGE， 将 两 种 方法 的 优势 结合 
起 来 。 

考虑 磁盘 上 的 单个 位 置信 息 列表 工 。 假 设 在 第 ;个 索引 更 新 周期 〈 也 就 是 搜索 引擎 第 i 
次 耗 尽 内 存 ) 之 后 ,， 工 总 的 大 小 为 si 字 节 。 在 第 i 十 1 个 更 新 周期 后 ，L 的 大 小 为 sin F 
节 。 现 在 ,假设 搜索 引擎 的 索引 所 在 的 磁盘 顺序 读 / 写 的 吞吐 量 为 每 秒 b 字 节 ， 并 且 随 机 磁 
盘 访 问 平均 需要 7 秒 。 如 果 按 照 IMMEDIATE MERGE 策略 更 新 ， 那 么 在 第 i 十 1 个 更 新 周 
期 过 程 中 ， 更 新 代价 为 : 

Ditr1 = siin (7-11) 
其 中 ， 两 个 被 加 数 分 别 是 读 取 旧 列表 和 写 新 列表 的 开销 。 如 果 使 用 就 地 更 新 策略 ， 那 么 更 新 
代价 为 : 


Diy, = 2r+ “i (7-12) 
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假设 更 新 这 个 列表 需要 两 次 磁盘 寻 道 〈 在 混合 索引 维护 策略 中 ， 每 一 次 就 地 更 新 需要 两 次 磁 
盘 寻 道 而 不 是 一 次 ， 因 为 它 中 断 了 顺序 合并 操作 ) 。 令 公式 (7-11) 和 公式 〈7-12) 相等 ， 
得 到 ， 
si=r-b (7-13) 

也 就 是 ， 只 要 磁盘 中 的 位 置信 息 列 表 大 于 >。b 字 节 ， 就 地 更 新 就 比 REMERGE 更 有 效 。 
对 于 普通 用 户 的 硬盘 来 说 ， 大 概 s; =0.5 MB。 列 表 越 短 ，IMMEDIATE MERGE 效率 越 
高 。 对 于 较 长 的 列表 ，INPALCE 更 加 适用 。 

图 7-6 中 的 算法 形式 化 了 这 种 想法 。 这 个 算法 在 磁盘 上 维护 两 个 索引 :Te 与 Iip o 
最 开始 所 有 的 位 置信 息 列 表 都 存放 在 Tue 中 。 每 当 列 表达 到 了 预定 义 的 阀 值 9 〈 由 硬件 指定 
的 REMERGE 与 INPLACE 之 间 的 平衡 点 ) BRA Te 传输 到 Ipe AENT L 来 眼中 
保存 就 地 索引 中 所 有 的 长 列表 。 











buildIndex_HybridImmediateMerge (M).= 

定义 Imerge 为 主 磁盘 索引 (合并 维护 ， 和 初始化 为 空 ) 
定义 Finpiace 为 辅 磁盘 索引 (就 地 更 新 ， 初 始 化 为 空 ) 
Imem —@ // 初始 化 内 存 索引 
currentPosting + 1 
LO // 长 列表 集合 初始 化 为 空 
while 还 有 符合 单元 需 索引 do 

T 二 next token 

Imem.addPosting(T, currentPosting) 


ory ena k wn ee 





9 currentPosting +— currentPosting + 1 

10 if Imem BEMI M 一 1 个 位 置信 息 

11 // 通 过 按 字典 序 遍 历 Jmem 和 Tmerge， 合 并 它们 

12 Imerge 二 0 // 创建 新 的 磁盘 索引 

13 for each term T € Fmem U Imerge do : 
14 if (T € L) V (Imem.getPostings(T).size + Imerge-getPostings(T).size > 0) then 
15 Iinplace.addPostings(T, Imerge.getPostings(T)) 

16 Tinptace.addPostings(T, Imem.getPostings(T)) 

17 CC 二 CUT 

18 else 

19 Tierge-addPostings(T, Imerge.getPostings(T)) 

20 Imerge- addPostings(T, Imem.getPostings(T)) 

21 Imerge —Tinerge // 用 新 磁盘 索引 等 代 旧 的 


Imem — 0 // 重 初始 化 内 存 索引 








图 7-6 使 用 连续 位 置信 息 列 表 上 的 HYBIRD IMMEDIATE MERGE (HIMc) 构建 在 线索 引 
的 过 程 。 输 入 参数 ， 长 列表 阅 值 3 


因为 这 种 更 新 策略 结合 了 REMERGE 和 INPLACE 的 优点 ， 它 通常 也 被 称 为 混合 索引 
维护 (hybird index maintenance) 。 图 中 所 示 的 这 种 方法 被 称 为 连续 位 置信 息 列表 Conti- 
gous posting list) 下 的 HYBRID IMMEDIATE MERGE (CHIMc), Biittcher 和 Clarke 
(2008) 分 析 了 这 种 方法 ， 他 们 证 明了 这 种 方法 理论 上 的 复杂 度 依赖 于 文档 集中 词 项 的 分 布 


情况 ， 复 杂 度 为 : 
e C) (7-14) 


其 中 ，N 为 文档 集 的 大 小 ，M 为 索引 过 程 中 内 存 的 预算 ，a 为 正在 被 构建 索引 的 文档 集 的 
齐 夫人 参数 。 对 于 与 GOV2 大 小 相当 的 文档 集 来 说 ，HIMc 的 索引 更 新 代价 比 IMMEDIATE 
MERGE 大 概要 少 50% 。 但 另 一 方面 ， 它 们 的 查询 人 性 能 几乎 是 一 样 的 ， 因 为 它们 都 将 位 置 
信息 列表 维持 在 严格 连续 的 状态 。 
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7.2.2 非 连续 倒 排列 表 


混合 索引 维护 策略 是 基本 的 IMMEDIATE MERGE 策略 的 一 种 显著 改进 。 然 而 ， 如 果 
内 存 资 源 很 少 ， 它 的 更 新 性 能 仍然 有 些 不 尽 如 人 意 ， 很 容易 成 为 搜索 引擎 的 主要 瓶颈 。 遗 憾 
的 是 ， 如 果 坚 持 按照 连续 的 方式 来 存储 磁盘 上 的 所 有 位 置信 息 列 表 ， 那 么 最 好 也 就 达到 这 种 
程度 。 为 了 获得 更 好 的 更 新 性 能 ， 我 们 必须 丢弃 将 所 有 位 置信 息 列表 按照 连续 的 方式 来 存储 
的 想法 。 

1. 索引 分 割 

索引 更 新 策略 维护 多 个 磁盘 倒 排 文件 ， 其 中 每 一 个 倒 排 文件 都 包含 任 一 给 定 倒 排列 表 的 
一 小 部 分 ， 则 称 为 索引 分 割 方案 〈index- partitioning scheme) 。 将 磁盘 索引 分 为 一 组 独立 的 
索引 分 区 可 以 大 大 提高 搜索 引擎 的 更 新 性 能 。 然 而 ， 不 利 的 一 面 是 : 因为 每 个 位 置信 息 列表 
不 再 存储 在 硬盘 的 连续 区 域 ， 查 询 性 能 会 慢 一 些 。 通 过 确保 索引 分 区 的 数量 较 少 ， 可 以 把 这 
种 不 利 保持 在 可 接受 的 水 平 。 

2. LOGARITHMIC MERGE 

最 常见 的 一 种 索引 分 割 算 法 是 LOGARITHMIC MERGE。 它 是 多 个 开源 文本 检索 系统 
(包括 Lucene 和 Wumpus) 的 标准 索引 维护 策略 。LOGARITHMIC MERGE 维护 多 个 索引 分 
区 。 每 个 分 区 有 一 个 标签 9， 标 识 这 个 分 区 是 第 几 代 (generation〉 的 。 每 当 搜 索引 擎 索引 过 程 
耗 尽 内 存 时 ， 它 就 为 内 存 索 引 中 的 数据 创建 一 个 新 的 磁盘 索引 分 区 。 这 个 新 的 倒 排 文件 获得 一 
个 临时 标签 “1”。 然 后 搜索 引擎 检测 目前 已 创建 的 所 有 索引 分 区 ， 检 查 是 否 存 在 有 两 个 相同 标 
签 98 的 分 区 。 如 果 是 ， 则 两 个 分 区 合并 为 一 个 新 的 分 区 ， 标 签 为 9 十 1。 重 复 这 个 过 程 直到 不 
存在 这 种 标签 冲突 为 止 〈 也 就 是 ， 直 到 任意 给 定 标签 9 最 多 对 应 一 个 索引 分 区 ) 。 

上 述 基 本 策略 可 以 通过 预测 
冲突 (anticipating collision) 得 到 
略微 改进 。 例 如 ， 当 合并 两 个 第 g 
代 的 分 区 时 ， 如 果 已 经 存在 第 g’ 
十 1 代 的 分 区 ， 我 们 可 以 简单 地 在 
第 一 次 合并 操作 中 包括 这 个 分 区 ， 

使 得 无 需 在 第 二 次 合并 中 对 第 一 | * ge MRSA RRS 
次 操作 产生 的 冲突 又 进行 处 理 。 | 10 gol 








buildIndex_LogarithmicMerge (M) = 

In —@ // 初始 化 内 存 索引 

currentPosting — 1 

while 还 有 符号 单元 需 索 引 do 
T — next token 
Ip.addPosting(T, currentPosting) 
currentPosting — currentPosting + 1 
if Io contains more than M — 1 tokens then 


SCRA wa bk wD Ne 

















BRERA RBAK a MPS Tees do // BR 

后 再 合并 两 个 第 9 十 1 代 的 分 区 i n I f nungelndices(Z) 

我 们 只 执行 一 次 三 路 合并 操作 ，| ss MRETI €T 

将 两 个 第 9 代 的 分 区 和 一 个 第 9 十 | eura 8 TEAR 

1 代 的 分 区 合并 得 到 一 个 新 的 第 

9 十 2 代 的 分 区 。 图 7-7 使 用 LOGARITHMIC MERGE ( 带 预 估计 的 版 本 ) 构 
形式 化 过 程 如 图 7-7 所 示 ， 给 建 在 线索 引 的 过 程 。mergeIndices 过 程 如 图 4-13 


出 了 LOGARITHMIC MERGE 的 预测 版 本 。 在 这 个 算法 中 ，1Is 是 第 g' 代 的 磁盘 索引 分 区 。 
I, 是 指 内 存 索引 。 

分 析 LOGARITHMIC MERGE 的 更 新 复杂 度 之 前 ， 让 我 们 来 看 一 个 具体 的 实例 。 假 设 
搜索 引擎 最 多 可 以 在 内 存 中 缓存 M 个 位 置信 息 。 搜 索引 擎 开始 为 一 个 给 定 的 文档 集 构建 索 
引 。 当 积累 的 位 置信 息 到 达 M 个 之 后 ， 它 开始 根据 内 存 索引 中 的 数据 构建 倒 排 文件 。 这 个 
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新 创建 的 索引 分 区 获得 标签 “1”。 搜 索引 区 继续 索引 其 他 文档 。 当 第 二 次 耗 尽 内 存 时 此 时 
有 2M 个 位 置信 息 )， 它 开始 创建 男 外 一 个 索引 分 区 。 这 个 新 分 区 不 能 标记 为 “1”， 因 为 已 
经 有 一 个 分 区 的 标签 为 “1”。 因 些 ， 它 和 现 有 分 区 合并 ， 产 生 一 个 新 的 分 区 ， 标 记 为 “2”。 
当 搜索 引擎 第 三 次 耗 尽 内 存 时 〈 此 时 有 3M 个 位 置信 息 )， 它 又 创建 一 个 标记 为 “1” 的 新 分 
区 。 由 于 此 时 不 存在 其 他 标记 为 “1” 的 分 区 ， 因 此 没有 必要 执行 合并 操作 ， 系 统 继续 索引 
文档 。 整 个 过 程 如 表 7-1 所 示 。 
表 7-1 由 LOGARITHMIC MERGE 维护 的 非 空 索引 分 区 序列 。 变 量 M 代表 内 存 中 缓存 的 位 置信 息 
数 。" 写 入 位 置信 息 数 ” 这 一 列 给 出 了 每 一 次 合并 操作 之 后 写 入 磁盘 的 位 置信 息 数 的 权 





计 和 
读 入 词 条 数 索引 分 区 写 入 位 置信 息 数 
1 2 3 4 5 # 
oxM 0 0 
1XM * 1 1XM 
2xM * 1 3X M 
3XM * x 2 4xM 
4XM 。 。 x 1 sxM 
5XM * 。 * 2 9X M 
6X M ` * * 2 11XM 
7XM x * x 3 12XM 
8XM . . . * 1 30XM 





这 个 基本 的 《〈 即 不 带 预 测 ) LOGARITHMIC MERGE 策略 执行 的 索引 维护 操作 写 人 磁 
盘 的 位 置信 息 总 数 是 多 少 呢 ? 假设 我 们 为 一 个 包含 N=2'M 个 词 条 的 文档 集 构建 索引 Ck 
为 正 整数 )。 当 索引 过 程 完成 后 ， 就 得 到 一 个 第 不 十 1 代 的 索引 分 区 Ten. I 由 合并 两 个 
第 代 的 索引 分 区 得 到 。 同 理 ， 每 个 第 代 的 分 区 也 是 由 合并 两 个 第 一 1 代 的 分 区 得 到 ， 
以 此 类 推 。 

每 个 合并 操作 得 到 第 i 代 的 分 区 需要 搜索 引 敬 将 2 一 : M 个 位 置信 息 写 回 磁盘 。 因 此 ， 
LOGARITHMIC MERGE 写 人 磁盘 的 位 置信 息 总 数 为 : 


2EM +2. (271M 十 2.(28 21M +---)) (7-15) 
k+1 
= So 2H- ot M (7-16) 
i=1 
=(k+1)-2*M (7-17) 


= (ice, (=) + 1) N (7-18) 
AA k=log: (N/M). 


从 磁盘 读 取 (read) 的 位 置信 息 数 的 上 界 受 限 于 写 入 〈written) 的 位 置信 息 数 〈 不 会 读 
两 次 ) 。 因 此 ， 用 输入 /输出 磁盘 的 总 位 置信 息 数 来 衡量 基本 的 LOGARITHMIC MERGE 策 
略 的 总 磁盘 复杂 度 为 : 


N 
DLogMerge(N) EQ (x “ log (Gr) (7-19) 


带 预测 的 LOGARITHMIC MERGE 仅仅 是 基本 版 本 的 常数 倍 改进 ， 因 此 它们 具有 相同 的 渐 
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进 复杂 度 ( 见 练习 7. 3) 。 

图 7-8 给 出 了 LOGARITHMIC MERGE 以 及 对 比方 法 的 更 新 和 查询 性 能 ， 更 新 的 缓存 
大 小 约 为 250 000 个 文档 。LOGARITHMIC MERGE 在 两 个 方面 (更 新 和 查询 性 能 ) 都 表 
现 很 好 。 它 的 累积 索引 构建 代价 比 NO MERGE 的 仅 多 出 40 多 ， 平 均 查 询 响应 时 间 在 整个 
实验 中 都 与 IMMEDIATE MERGE 接近 。 

图 7-8 中 两 幅 图 中 的 跳跃 点 是 由 于 合并 操作 导致 的 。 因 为 实验 中 的 缓存 大 小 为 250 000 
个 文档 。 每 当 有 2*。250 000 (例如 400 万 、800 万 、1600 万 ) 个 文档 加 入 索引 时 ，LOGA- 
RITHMIC MERGE 就 执行 一 次 完全 合并 操作 。 这 个 在 磁盘 索引 中 的 重合 并 结果 只 包含 一 个 
分 区 。 在 查询 性 能 方面 ， 短 时 间 内 LOGARITHMIC MERGE 和 IMMEDIATE MERGE 没 
什么 差别 ， 因 为 两 种 方法 都 是 连续 索引 。 


----- NO. MERGE(M=250 k 个 文档 ) 
--- 一 一 NO. MERGE(M=250 k 个 文档 )  —- 
”~--~ IMM. MERGE(M=250k 个 文档 ) 






~ NO. MERGE(M=250 个 文档 ) 
8 十 … — NO. MERGE(M=250 k 个 文档 ) 1.2 
---- IMM. MERGE(M=250 k 个 文档 ) 


Pea 


- 
- 
- 
vi 


累加 更 新 代价 (h) 


aon 
一 一 


平均 查询 响应 时 间 (s) 
Oo 
a 





0 5 10 15 20 25 0 5 10 15 20 25 
图 7-8 LOGARITHMIC MERGE 的 整体 性 能 ， 对 比 的 方法 有 NO MERGE 以 及 IMMEDIATE 
MERGE。 数 据 集 ，GOV2 (2520 万 个 文档 ) 。 水 平 轴 表 示 被 索引 的 文档 数 Cx 108) 


7.3 文档 删除 

尽管 对 增 量 式 更 新 的 支持 已 经 满足 一 些 应 用 的 需要 ， 但 在 多 数 现 实情 况 下 搜索 引擎 还 是 
需要 能 够 处 理 删除 的 问题 。 例 如 ， 在 Internet 上 常常 有 一 些 网 页 不 久 就 不 见 了 。 这 样 的 文档 
不 应 再 出 现在 搜索 引擎 的 返回 结果 列表 里 。 如 果 删 除 操 作出 现 的 频率 很 低 ， 并 且 如 果 可 以 接 
受 小 部 分 的 检索 结果 指向 不 存在 的 文档 ， 这 时 7. 1 节 的 REBUILD 就 是 一 个 很 适用 的 索引 维护 
策略 。 然 而 ， 我 们 还 是 建议 被 删除 的 文档 不 应 该 出 现在 呈现 给 用 户 的 检索 结果 列表 中 。 如 果 搜 
索引 擎 总 是 让 用 户 链接 到 不 存在 的 文档 ， 用 户 很 快 就 会 感到 失望 并 且 不 再 使 用 这 个 搜索 引擎 。 


7.3.1 无 效 列表 


确保 被 删除 的 文档 不 出 现在 搜索 结果 中 的 一 种 可 能 的 方法 是 从 索引 中 移 除 这 些 文档 对 应 
的 位 置信 息 。 但 是 ， 这 需要 读 取 每 个 位 置信 息 列表 ， 解 压 后 将 作废 的 位 置信 息 移 除 ， 然 后 重 
新 压缩 这 个 列表 并 写 回 磁盘 。 在 增 量 式 更 新 中 ， 每 次 删除 文档 之 后 都 进行 一 次 这 样 的 操作 是 
不 可 行 的 。 另 一 种 做 法 是 ， 删 除 文档 的 信息 可 以 在 搜索 引擎 中 累积 ， 在 搜索 过 程 中 维护 一 个 
无 效 列 表 Cinvalidation lis) 来 过 滤 作废 的 位 置信 息 ， 或 在 可 将 最 终 搜索 结果 返回 给 用 户 之 
前 过 滤 掉 被 删除 的 文档 。 

如 果 搜 索引 人 擎 基于 面向 文档 的 索引 ， 比 如 文档 编号 索引 或 者 是 词 频 索 引 ， 那 么 这 个 无 效 
列表 只 是 文档 编号 的 列表 。 如 果 使 用 的 是 模式 独立 索引 ， 那 么 这 个 无 效 列表 是 形 如 《start， 
end) 元 组 的 序列 ， 指 示 了 被 删除 文档 在 索引 地 址 空间 中 的 起 始 和 结束 偏 移 。 

假设 为 5 个 文档 Di e D: 建立 了 一 个 索引 ， 每 个 文档 分 别 有 100、200、150、100 
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和 200 个 词 条 。 现 在 从 这 个 索引 中 删除 D: 和 D;。 那 么 当 采 用 模式 独立 形式 的 索引 时 ， 这 个 
无 效 列表 为 : 

I = ((101, 300), (551, 750) ) (7-20) 
将 工 应 用 于 位 置信 息 列 表 或 者 检索 结果 集 不 是 很 复杂 。 如 果实 现 了 5. 2 节 中 的 结构 化 查询 操 
作 ， 那 么 只 需 简 单 地 将 查询 树 上 的 每 个 位 置信 息 列 表 一 用 对 应 过 滤 后 的 结果 P =(P AT) 
来 代替 ， 其 中 为 HAAS (not-contained-in) KA R 5-2 给 出 了 具体 定义 ) 。 

在 实际 应 用 中 ， 这 种 方法 效果 相当 不 错 ， 特 别 是 当 为 操作 被 设计 成 懒 情 求 值 Clazy eval- 
uation) 形式 时 ， 人 允许 在 过 滤 后 的 列表 PO 中 进行 高 效 的 随机 访问 。 然 而 ， 如 果 搜 索引 警 总 
是 积极 地 计算 整个 列表 PP ， 而 不 管 查询 处 理 是 否 真 的 用 到 这 个 列表 的 时 候 ， 例 如 图 2-5 中 
的 next 方法 这 样 的 高 级 操作 就 有 可 能 会 失去 与 简单 线性 访问 方式 相 比 的 优势 。 

尽管 使 用 无 效 列 表 的 背后 基础 思想 相当 简单 ， 但 具体 的 实现 细节 对 这 个 方法 的 实际 性 能 
也 有 很 大 的 影响 一 一 通常 都 是 这 样 的。 例如 ， 尽 管 我 们 说 每 个 位 置信 息 列表 P 都 要 使 用 到 无 效 
列表 I， 但 有 时 对 查询 树 重 排序 ， 只 在 所 有 查询 词 项 T 对 应 的 位 置信 息 列 表 P; 合并 后 再 应 用 I 
会 更 好 。 重 新 考虑 在 莎士比亚 文集 上 执行 这 个 查询 “to be or not to be"， 这 个 词组 在 文集 中 只 出 
现 了 一 次 (第 1 场 ,第 3 幕 ), 但 单个 词 项 出 现 的 频率 却 在 2425 (“or”) 和 19 898 (“to”) 之 间 。 
因此 ， 不 要 通过 对 过 滤 后 的 位 置信 息 列 表 求 PO 交集 来 寻找 上 述 词组 ， 这 样 得 一 遍 又 一 遍地 过 滤 
7T， 只 需要 计算 未 过 滤 列 表 Pi 的 交集 并 在 每 次 计算 的 最 后 执行 一 次 “ CA D” RRAK. 

如 何 将 无 效 列 表 应 用 于 一 个 给 定 查 询 与 传统 〈 即 关系 型 ) 数据 库 系统 中 的 优化 问题 紧密 
相关 。 传 统 数据 库 系 统 中 ， 最 优 查 询 计划 依赖 于 查询 中 每 个 谓词 的 选择 (参考 Garcia-Moli- 
na 等 人 (2002) 中 关系 型 数据 库 系统 的 介绍 ) 。 回 到 文本 检索 的 语 境 ， 这 就 意味 着 如 果 一 个 
词 项 在 删除 文档 中 出 现 了 很 多 次 ， 那 么 应 直接 在 这 个 词 项 的 位 置信 息 列表 中 运用 无 效 列表 L 

如 果 用 布尔 AND 的 方式 来 处 理 查 询 中 的 词 项 ， 那 么 只 在 词 项 上 运用 一 次 了 就 足够 了 ， 

. 因为 对 其 他 词 项 的 操作 已 经 暗含 在 AND 操作 的 语义 中 。 对 于 布尔 OR 查询 ，Biittcher 和 
Clarke (2005b) 文献 中 提 到 一 个 经 验 法 则 ， 建 议 将 限制 应 用 在 查询 树 中 尽 可 能 高 的 地 方 。 
然而 ， 对 于 不 同 的 应 用 以 及 不 同 的 查询 ， 最 优 的 选择 往往 是 不 同 的 。 


7.3.2 垃圾 回收 


上 面 介绍 的 无 效 列 表 方 法 仅 当 废弃 的 位 置信 息 〈 即 被 删除 的 文档 对 应 的 位 置信 息 ) 数 比 
索引 中 的 位 置信 息 总 数 小 时 才 是 可 行 的 。 因 为 倒 排 列表 通常 都 以 信息 块 的 方式 来 组 织 ， 并 以 
块 为 单位 进行 压缩 〈 见 4. 3 节 以 及 6. 3.2 节 )。 在 查询 处 理 过 程 中 ， 因 为 同 在 一 个 块 的 其 他 有 
用 位 置信 息 需 要 用 来 处 理 查询 ， 所 以 也 不 得 不 将 很 多 废弃 的 位 置信 息 装 进 内存 并 进行 解压 。 如 
果 被 删除 的 文档 数 随时 间 不 断 增加 ， 由 废弃 位 置信 息 带 来 的 影响 会 越 来 越 大 ， 最 终 使 查询 性 能 
降低 到 无 法 接受 的 程度 。 因 此 ， 某 个 时 候 所 有 废弃 的 位 置信 息 必 须 从 索引 中 移 除 ， 得 到 一 个 新 
的 索引 ， 仅 包含 那些 还 存在 的 文档 的 位 置信 息 。 这 个 过 程 称 为 垃圾 回收 (garbage collection) 。 

培 圾 回收 通常 是 按照 逐个 列表 的 方式 执行 。 从 抽象 的 角度 来 看 ， 它 与 查询 处 理 并 无 多 大 
KE: 我 们 只 是 简单 地 将 无 效 列表 I 应 用 于 原 索 引 中 的 每 个 位 置信 息 列表 PP， 得 到 一 个 过 滤 
之 后 的 列表 P'， 并 将 它 加 入 到 新 的 没有 废弃 位 置信 息 的 索引 中 。 然 而 ， 还 是 有 一 个 细微 的 
不 同 。 因为 由 垃圾 回收 过 程 创建 的 新 索引 将 包含 原 索 引 中 的 所 有 位 置信 息 〈 当 然 ， 废 弃 的 位 
置信 息 除 外 )， 所 以 没有 必要 执行 懒惰 求 值 双 操作 。 相 反 ， 原 索引 中 的 每 个 位 置信 息 列表 P 
可 以 积极 地 根据 无 效 列表 了 进行 过 滤 ， 每 次 处 理 一 个 位 置信 息 。 图 7- 9 给 出 了 这 种 逐个 列表 





第 7 章 动态 倒 排 索引 - 167 


处 理 的 垃圾 回收 过 程 的 一 种 可 能 实现 ,使 用 了 第 2 章 基于 跳跃 式 搜索 实现 的 next 索引 访问 
方法 ， 实 现 位 置信 息 列表 P 和 无 效 列表 了 的 快速 交集 操作 。 





a) 
collectGarbage (P,I) = 
(startDeleted, endDeleted) — nextInterval(I, 一 co) 
for i + 1 to |P] do 
if P[i] > endDeleted then 
// 找 到 下 一 个 可 能 包含 P 国 的 区 间 
(startDeleted, endDeleted) — nextInterval(1, P[i] — 1) 
if Pli] < startDeleted then 
output Pa 
else 


// 回收 当前 位 置信 息 


nextInterval (I, current) = 
10 intervalEnd — next(I.end, current) 


11 // ci end 现在 包含 了 位 置信 息 列表 I.end 中 缓存 的 位 置信 息 
12 // (see Figure 2.5 for details) . 


四 有 





13 if intervalEnd = oo then 

14 intervalStart — oo 

15 else 

16 intervalStart — I.start{cr.end]) 


17 return (intervalStart, intervalEnd) 


— 

图 7-9 从 一 个 模式 独立 的 位 置信 息 列表 上 回收 废弃 的 位 置信 息 。collectGar- 
bage 函数 有 两 个 参数 ， 位 置信 息 列 表 P 和 无 效 列表 了 一 (Htart[]， 
Enzd[]) ， 后 者 对 应 着 被 删除 的 索引 范围 。 它 输出 不 被 工 所 包含 的 位 
HAURA. WRR nextInterval 返回 了 中 第 一 个 结束 位 置 在 当前 
索引 位 置 current 之 后 的 区 间 。 它 使 用 了 图 2-5 中 的 next 函数 








多 久 调 用 一 次 垃圾 回收 呢 ? 这 主要 取决 于 应 用 环境 能 接受 的 查询 变 慢 的 程度 。 例 如 ， 如 
果 查 询 性 能 降低 了 10 多 是 可 接受 的 ， 那 么 就 无 需 在 索引 只 包含 5 多 的 垃圾 位 置信 息 的 时 候 进 
行 垃圾 回收 。 一 般 来 说 ， 建 议 不 要 太 频 繁 地 进行 垃圾 回收 。 垃 圾 回收 是 很 耗 时 的 ， 其 至 比 一 
般 的 合并 操作 代价 还 要 大 。 除 了 将 旧 索 引 读 和 内存 和 将 新 索引 写 回 磁盘 ， 系 统 还 要 解压 位 置 
信息 和 计算 列表 交集 ， 很 容易 就 比 一 般 的 合并 更 新 还 要 高 出 30% 一 40 多 的 代价 。 因 此 ， 为 
了 降低 整体 的 代价 ， 所 有 的 垃圾 回收 操作 必须 集成 到 日 常 的 索引 合并 操作 ， 使 得 合并 和 垃圾 
回收 操作 能 够 共同 分 担 将 索引 装 人 内 存 和 写 回 磁盘 的 代价 。 

具体 实现 的 时 候 ， 通 过 设 定 一 个 阐 值 参数 p 来 定义 垃圾 回收 策略 。 每 当 和 需要 执行 合并 操 
作 且 输入 索引 中 的 垃圾 位 置信 息 数量 超过 o 的 时 候 ， 也 就 是 如 果 

输入 索引 中 的 垃圾 位 置信 息 数 、 
输入 索引 中 的 位 置信 息 数 一 

那么 应 该 将 垃圾 回收 操作 加 入 到 合并 操作 中 。 

BE o 除了 会 影响 查询 性 能 以 外 ， 还 会 影响 搜索 引擎 的 索引 更 新 操作 性 能 。 如 果 p 太 
小 ， 那 么 垃圾 回收 操作 就 会 频繁 调用 ， 更 新 性 能 就 会 降低 。 相 反 ， 如 果 o 太 大 ， 合 并 操作 可 
能 会 处 理 太 多 的 垃圾 位 置信 息 ， 同 样 也 会 影响 系统 的 更 新 性 能 。 

图 7-10 给 出 了 实验 结果 ， 实 验 中 我 们 让 搜索 引擎 为 50% 的 GOV2 文档 (二 1260 万 个 文 
ED 建立 索引 。 索 引 建立 之 后 ， 交 错 地 让 搜索 引擎 执行 插 人 和 删除 命令 ， 逐 渐 地 增加 被 索引 
文档 集 的 大 小 ， 每 10 次 插入 操作 对 应 9 次 删除 。 系 统 的 合并 策略 设 为 IMMEDIATE 
MERGE， 内 存 足 够 用 来 缓存 250 000 个 文档 的 位 置信 息 。 根 据 不 同 的 阔 值 o 来 评价 索引 更 
.新 的 整体 开销 。 
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累加 更 新 代价 (h) 





文档 插入 /删除 (x105) 


图 7-10 非 增 量 式 索 引 更 新 ， 删 除 /插入 比 为 0.9《〈 即 每 10 次 插入 对 应 9 
次 删除 )。 数 据 集 GOV2。 内 存 限制 M=250 000 个 文档 。 
包含 垃圾 回收 的 合并 操作 用 符号 “。 ”表示 


实验 结果 证 实 了 我 们 的 猜测 ， 每 次 合并 操作 中 如 果 主 动 回 收 所 有 的 垃圾 位 置信 息 ， 那 就 
达 不 到 最 优 的 更 新 性 能 。 实 际 上 ， 实 验 中 设置 o=0 得 到 的 索引 更 新 开销 比 o 一 0. 1 时 高 出 几 
乎 20% 。 而 第 三 个 测试 值 o 一 0. 25， 得 到 的 更 新 性 能 位 于 这 两 者 之 间 ， 甚 优势 是 垃圾 回收 的 
频率 不 高 ， 但 合并 操作 中 人 处理 了 过 多 的 垃圾 位 置信 息 。 
如 何 找 出 使 整体 更 新 代价 最 小 的 阔 值 ? 我 们 知道 没有 垃圾 回收 的 普通 合并 操作 的 代价 大 
致 与 输入 和 输出 索引 的 位 置信 息 数 成 线性 关系 : 
Crerge (Lins Tou =c À (H postings(I,,) + # postings( Lou) (7-21) 


c 是 系统 指定 的 常数 。 如 上 所 述 ， 集 成 垃圾 回收 操作 使 合并 操作 的 代价 增加 了 30% ~40% . 
然而 ， 垃 圾 回收 过 程 的 主 复杂 度 主要 源 于 用 无 效 列表 过 滤 输 入 的 位 置信 息 列表 ， 因 此 很 大 程 
度 上 独立 于 输出 索引 I 的 大 小 。 因 此 我 们 可 以 假设 集成 有 垃圾 回收 的 合并 操作 的 代价 大 
致 为 ， 
Cremetec Tiny Tord =C © (1.6 ° #postings(],,) + # postings( To )) (7-22) 
c 与 前 面 的 一 样 。 
让 我 们 忽略 与 删除 文档 无 关 的 有 效 位 置信 息 所 带 来 的 更 新 代价 ， 仅 关注 索引 中 垃圾 位 置 
信息 的 影响 。 对 一 个 一 般 的 合并 操作 ， 由 垃圾 位 置信 息 所 引起 的 开销 与 它们 在 索引 中 所 占 比 
例 有 直接 关系 : 


Omerge Lins Tou) =c * (H garbage n) + H garbagel Ion) ) (7-23) 
不 执行 垃圾 回收 时 ， 我 们 有 # garbage Ui.) = # garbage Ton)» SATE 
Omer Tins Lor) =20 À # garbageCIin) (7-24) 
对 于 具有 垃圾 回收 的 合并 操作 ， 开 销 为 : 
Omergetge (Lins Ion) =C + CH garbage(Iin) +0. 6 ° # postings(Iin)) (7-25) 


因为 系统 首先 要 读 取 垃 圾 位 置信 息 〈 除 有 效 位 置信 息 之 外 )， 然 后 用 无 效 列表 过 滤 所 有 位 置 
信息 ， 不 管 是 有 效 的 还 是 废弃 的 。 这 就 占用 了 60 多 的 开销 。 

现在 假设 按照 每 n 次 合并 操作 就 执行 一 次 垃圾 回收 的 方式 来 选择 阐 值 c。 进 一 步 假 设 最 
开始 索引 包含 已 个 位 置信 息 ， 没 有 垃圾 位 置信 息 ， 并 假设 两 次 连续 的 合并 操作 之 后 ， 搜 索 
引 警 会 收集 到 M 个 位 置信 息 ， 文 档 删 除 与 插 人 的 相对 比率 为 9 〈 例 如 ，9=0 意味 着 没有 删 
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除 操作 ; 9 二 1 意味 着 系统 在 稳定 状态 (steady state) ， 索 引 中 文档 数 保 持 为 一 个 常数 )。 那 
ABSA kK kn) AHEM RB BRN k.g. M。 因 此 ， 包 含 垃圾 回收 操作 
的 连续 n 次 合并 操作 (前 % 一 1 次 合并 操作 没有 垃圾 回收 操作 ， 最 后 一 次 合并 操作 有 ) 的 总 
开销 为 : 


n—-1 


Owaln) = X (2kgM) + ngM + 0.6 (P +nM) (7-26) 
k=1 
= (n—1)ngM +ngM +0.6-(P+nM) (7-27) 
=n?gM +0.6-nM+0.6-P (7-28) 
(忽略 常数 c， 因 为 公式 各 项 中 c 值 都 一 样 )。 每 n 次 合并 操作 的 平均 开销 为 : 
Oave(n) = Com = ngM +0.6-M+06-— (7-29) 


寻找 使 Que(%) 最 小 的 最 优 值 等 价 于 寻找 令 导 数 -和 (Qua (0d) X OH n f: 


d P 10.6. P 
Gn Ore) = 9 © gM-06-5=0 & n= aM (7-30) 


根据 这 个 不 等 式 ， 我 们 可 以 计算 最 优 阅 值 pe; 
nop — 1): gM Nop - gM 
oY (Thon xs M < Port < PP -M 
例如 ， 如 果 没 有 文档 被 删除 Cg=0), 我 们 可 以 得 到 Nor =O, per 二 未 定义 ， 也 就 是 ， 不 应 
该 进行 垃圾 回收 操作 。 如 果 P=50 ° M Ag=0.9, EWR 7-10 所 示 的 实验 中 那样 ， 最 优 值 
No = V33. 36, 0. 082<po <0. 096, KEF, p=0. 1 得 到 的 效果 最 好 ， 每 7 次 合并 操作 
之 后 触发 一 次 垃圾 回收 操作 ， 接 近 最 优 值 。 

值得 一 提 的 是 ， 因 为 nw 仅 随 VP 增 长 ， 当 索引 越 来 越 大 时 ，P 就 成 为 公式 (7- 31) 的 
主导 项 ， 而 pow 会 变 小 。 因 此 ， 仅 当 索 引 的 大 小 预计 几乎 不 随时 间 变 化 时 ， 才 建议 垃圾 回收 
BIEL o 取 常 数 。 

双 层 垃圾 回收 策略 

到 目前 为 止 ， 我 们 只 讨论 了 IMMEDIATE MERGE 作为 主要 更 新 策略 时 的 垃圾 回收 方 
法 。 当 然 ， 垃 圾 回收 还 可 以 集成 到 那些 维护 多 个 索引 分 区 的 更 新 模式 中 ， 比 如 LOGA- 
RITHMIC MERGE, 但 是 这 么 做 会 稍微 复杂 些 。 

如 果 索 引 采 用 IMMEDIATE MERGE 方法 来 维护 ， 那 么 我 们 可 以 肯定 时 常 发 生 的 合并 
操作 会 涉及 索引 中 的 所 有 位 置信 息 。 在 合并 操作 开始 前 ， 搜 索引 擎 根据 内 部 删除 日 志 计算 垃 
圾 位 置信 息 和 索引 中 所 有 位 置信 息 的 比率 。 如 果 这 个 比率 超过 垃圾 回收 阔 值 p， 那 么 合并 操 
作 就 会 包括 垃圾 回收 。 

假设 系统 处 在 稳定 状态 ， 删 除 文档 的 比率 与 插入 文档 的 比率 大 臻 相等。 那么 ， 我 们 知道 
搜索 引擎 在 两 次 连续 的 合并 操作 之 间 会 收集 到 大 概 M 个 垃圾 位 置信 息 M 是 系统 的 内 存 容 
量 ， 用 位 置信 息 数 来 衡量 ) 。 如 果 M 比索 引 规模 N 小 很 多 ， 如 N>10M， 那 么 我 们 知道 在 
两 次 合并 之 间 ， 索 引 中 垃圾 位 置信 息 率 的 增长 不 会 超过 10% 。 这 使 我 们 能 够 很 好 地 控制 垃 
专 位 置信 息 的 总 数 。 

如 果 使 用 索引 分 割 方案 ， 单 个 合并 操作 不 再 需要 涉及 整个 索引 。 因 此 ， 很 有 可 能 垃圾 位 
置信 息 都 集中 在 某 个 合并 操作 不 会 处 理 到 的 旧 分 区 中 。 现 在 假设 使 用 LOGARITHMIC 
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MERGE 更 新 策略 ， 搜 索引 擎 正好 完成 了 一 次 合并 操作 ， 创 建 了 一 个 新 的 第 9 代 索 引 分 区 
IL, BAA 2 Mee. El, 中 的 位 置信 息 参 与 下 次 合并 操作 之 前 ， 搜 索引 擎 要 为 
29M 个 词 条 建立 索引 。 因 为 索引 处 在 稳定 状态 ， 此 时 2° M 个 位 置信 息 将 被 废弃 。 在 这 
个 假设 下 ， 废 弃 的 位 置信 息 在 整个 索引 中 是 均匀 分 布 的 ， 索 引 中 的 2 M 个 位 置信 息 将 出 
现在 I 中 。 因 此 ，1, 中 的 垃圾 量 为 50% ， 整 个 索引 中 的 垃圾 量 在 33% ~50% ZI, AR 
决 于 从 更 早 的 索引 分 区 卫 ，…，1T,_; 中 移 涂 垃圾 位 置信 息 的 频率 。 对 很 多 应 用 而 言 ， 这 有 些 
太 频 繁 了 。 

上 上 述 问 题 可 以 通过 定义 两 个 闪 值 c 和 0'(0 委 po<<o) 来 解决 。 每 当 系 统 要 合并 索引 分 区 集 
合 S 时 ， 系 统 将 会 采取 下 面 的 三 种 方式 之 一 : 

D 如 果 S 中 垃圾 位 置信 息 的 比例 超过 o， 那 么 合并 操作 中 加 入 垃圾 回收 。 

2) 如 果 在 整个 索引 中 垃圾 位 置信 息 的 比例 超过 o， 那 么 系统 将 合并 索引 中 的 所 有 分 区 
(而 不 只 是 S)， 收 集 它 能 找到 的 所 有 垃圾 位 置信 息 并 产生 一 个 没有 分 段 和 垃圾 的 新 索引 。 

3) 如 果 以 上 条 件 均 不 满足 ， 那 么 搜索 引擎 对 S 中 的 索引 分 区 执行 一 个 普通 的 合并 操作 ， 
不 处 理 任何 垃圾 信息 。 

这 种 双 层 垃圾 回收 机 制 确保 了 不 会 有 大 量 的 垃圾 位 置信 息 集中 在 旧 的 索引 分 区 中 。 不 利 的 一 
面 是 ， 它 抵消 了 一 些 索 引 分 割 方案 (如 LOGARITHMIC MERGE) 带 来 的 性 能 优势 ， 因 为 
这 样 执行 的 完全 合并 操作 就 更 多 了 。 

最 后 要 说 明 的 是 ， 有 必要 指出 7. 2. 2 节 描 述 的 最 基本 的 LOGARITHMIC MERGE 方法 
即便 是 使 用 双 层 垃圾 回收 策略 ， 在 有 文档 删除 的 情况 下 ， 性 能 也 不 会 很 好 。 如 果 合 并 操作 输 
出 的 索引 分 区 比 输入 分 区 还 小 〈 如 果 索 引 中 存在 很 多 垃 明 位 置信 息 时 ， 这 可 能 会 发 生 )， 就 
不 存在 索引 分 代 (index generation) 的 概念 了 。 图 7-7 中 的 算法 需要 做 一 定 的 修改 ， 使 得 在 
决定 哪些 分 区 加 入 到 下 一 次 的 合并 操作 时 ， 考 虑 每 个 分 区 的 大 小 〈 而 不 是 它们 的 代数 ) 。 


7.4 文档 修改 


第 三 种 更 新 操作 类 型 就 是 文档 修改 了 。 很 多 搜索 引擎 都 没有 使 用 专门 的 策略 来 处 理 这 种 
类 型 的 更 新 ， 而 是 将 每 次 的 修改 视 为 删除 之 后 又 插入 当前 文档 的 新 版 本 。 如 果 每 个 文档 与 文 
档 集 相 比 是 很 小 的 ， 那 么 这 种 方法 的 性 能 通常 都 是 可 接受 的 。 然 而 ， 当 对 相对 较 大 的 文档 做 
相对 较 小 的 修改 时 ， 这 种 方法 就 不 适用 了 。 

作为 一 个 说 明 问题 的 例子 ， 考 虑 UNIX 风格 的 操作 系统 所 维护 的 日 志文 件 〈 比 如 Linux 
中 的 /var/log/messages) 。 当 检索 这 些 日 志文 件 时 ， 能 同时 匹配 多 个 日 志 项 的 检索 操作 通常 
是 很 有 用 的 一 一 例如 ， 确 定 未 授权 人 侵 之 类 的 重复 模式 。 尽 管 这 些 日 志文 件 整体 很 大 ， 可 能 
有 几 十 或 几 百 粮 字 节 ， 但 每 次 更 新 只 涉及 一 行内 容 ， 一 般 只 有 几 十 或 几 百 字 节 。 每 次 更 新 后 
都 重新 索引 整个 文件 很 显然 是 不 可 行 的 。 将 日 志文 件 的 每 一 行 都 视 为 一 个 单独 的 文件 也 不 是 
一 个 好 方法 。 这 使 得 我 们 无 法 在 连续 多 行 上 指定 检索 约束 条 件 。 如 果 有 一 种 索引 更 新 机 制 能 
够 反映 出 对 这 种 文件 进行 更 新 操作 的 特点 ， 那 么 将 会 很 方便 。 

遗憾 的 是 ， 使 用 本 章 前 面 几 节 介绍 过 的 索引 维护 框架 将 很 难 找到 这 样 的 更 新 方法 。 例 
如 ， 假 设 我 们 处 理 一 个 位 置 索 引 包 括 以 下 形式 的 位 置信 息 : 

(d, fi,as (Piss Phea?) (7-32) 
搜索 引擎 使 用 7. 2. 2 节 中 的 LOGARITHMIC MERGE 更 新 策略 。 如 果 搜索 引擎 对 文件 追加 
操作 只 是 简单 地 索引 新 的 词 条 ， 并 当 内 存 耗 尽 时 将 对 应 的 位 置信 息 写 人 磁盘 ， 那 么 最 后 会 有 
许多 个 具有 (term, document) 形式 的 位 置信 息 存 在 ， 每 一 个 索引 分 区 中 都 会 有 一 个 。 这 
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增加 了 查询 处 理 以 及 索引 更 新 的 复杂 度 : 
。 如 果 搜 索引 擎 维护 n 个 独立 的 索引 分 区 ， 那 么 调用 next 方法 一 次 需要 n 次 随机 访 
问 操作 ， 而 不 只 一 次 ， 因 为 这 % 个 索引 分 区 中 的 每 个 都 可 能 包含 结果 的 一 部 分 。 
. 7.3.2 节 中 的 垃圾 回收 机 制 不 能 只 在 一 个 索引 分 区 上 执行 ， 因 为 被 删除 文档 的 位 置信 
息 可 能 分 散在 整个 索引 中 。 这 意味 着 每 次 调用 垃圾 回收 都 会 触发 一 次 整个 索引 上 的 
合并 操作 。 
Biittcher (2007， 第 6 章 ) 给 出 了 一 种 带动 态 地 址 空间 转换 的 基于 模式 独立 索引 的 更 新 方 
法 ， 可 以 在 一 定 程度 上 解决 上 面 的 问题 。 然 而 ， 代 价 是 更 多 的 内 存 消耗 和 查询 处 理性 能 的 降 
低 ， 因 此 并 不 总 是 可 取 的 。 

如 何以 满意 的 方式 处 理 任意 文档 的 修改 (或 上 述 的 简单 追加 操作 )， 仍 然 是 个 不 明朗 的 
问题 ， 因 此 通常 就 只 是 忽略 它 。 例 如 ,很 多 桌面 检索 系统 就 只 索引 每 个 文件 /文档 前 面 的 岂 
干 字 节 内 容 ， 而 忽略 后 面 的 内 容 。 这 使 得 这 些 系统 可 以 把 文件 的 修改 看 做 是 删除 和 插入 操作 
的 组 合 ， 而 又 无 需 对 好 几 兆 内 容 进行 重新 索引 。 


7.5 讨论 及 延伸 阅读 

Cutting 和 Pedersen (1990) 的 一 篇 文献 首次 对 就 地 更 新 以 及 合并 更 新 的 索引 维护 策略 
进行 了 比较 性 评价 ， 他 们 发 现 合 并 更 新 性 能 通常 更 好 。 他 们 的 就 地 更 新 的 索引 维护 策略 的 实 
现 基于 存储 于 磁盘 的 B- 树 ， 使 用 内 存 缓 存 近 期 访问 的 树 节 点 ， 与 今天 使 用 的 就 地 更 新 策略 
有 很 大 的 不 同 。Lester 等 人 〈2004，2006) ， 在 十 多 年 后 对 多 种 不 同 的 更 新 策略 进行 了 最 新 
的 实现 ， 对 比 了 INPLACE、REBUILD 以 及 REMERGE 方法 的 性 能 。 他 们 的 实现 证 实 了 
Cutting 和 Pedersen 的 发 现 ， 仅 当 内 存 资源 稀少 但 需要 频繁 更 新 磁盘 索引 时 ， 就 地 更 新 策略 
才 具 有 竞争 力 。 

Zobel 等 人 (1993) 讨论 了 一 种 用 于 变 长 记录 的 存储 管理 策略 及 其 在 就 地 更 新 索引 维护 
策略 中 的 应 用 。Shieh 和 Chung (2005) 描述 了 INPLACE 的 一 种 变形 ， 其 中 预 分 配 因 子 是 
依赖 于 词 项 的 ， 由 带 常数 预 分 配 因子 的 反 向 INPLACE 方法 得 到 的 历史 数据 来 计算 得 到 。 

7.2.1 节 中 的 混合 索引 维护 策略 来 源 于 Biittcher 和 Clarke (2006，2008) ， 它 将 索引 分 
为 就 地 更 新 部 分 和 合并 维护 部 分 。 这 种 方法 的 精 散 与 Cutting 和 Pedersen (1990) 一 篇 文章 
中 描述 的 脉冲 (pulsing) 方法 类 似 。Shoens A (1994) 以 及 Tomasic 等 人 (1994) 对 相 
关 的 双 索 引 组 织 结构 进行 了 阐述 。 

Biittcher 和 Clarke (2005a) 研究 了 logarithmic 合并 方法 ， 一 般 的 形式 称 为 几何 分 制 
(geometric partitioning), Lester 等 人 (2005) 提出 了 这 个 概念 。 两 项 研究 都 发 现 了 这 种 方 
法 能 够 显著 减少 搜索 引擎 的 索引 维护 开销 ， 代 价 是 查询 性 能 的 略微 下 降 ， 一 般 不 超过 20% 。 
他 们 得 出 结论 : 折 中 索引 时 间 和 查询 时 间 两 个 考虑 因素 ，logarithmic 合并 通常 是 个 不 错 的 
选择 。Biittcher 等 人 (2006) 讨论 了 LOGARITHMIC MERGE 的 一 些 混合 应 用 。 

尽管 索引 分 割 策略 如 LOGARITHMIC MERGE 具有 很 大 的 优势 ， 但 只 有 当 索 引 是 一 个 
单纯 的 倒 排 索引 时 ， 才 能 完全 地 发 挥 它们 的 优势 。 在 一 些 应 用 中 ， 如 Web 搜索 ， 索 引 中 还 
包含 一 些 用 于 排名 的 辅助 信息 ， 如 锚 文 本 、PageRank 分 值 等 〈 见 第 15 章 )。 在 这 种 情况 下 ， 
加 入 一 个 文档 Di 可 能 会 影响 到 D: 对 应 的 索引 数据 ， 因 为 D 可 能 会 包含 指向 D: 的 链接 。 
插入 文档 不 再 是 一 个 只 影响 单个 文档 的 操作 ， 而 是 必须 被 当做 为 一 个 具有 全 局 影响 的 操作 ， 
这 使 得 只 有 INPLACE/REBUILD/REMERE 才 是 可 行 的 方案 。 而 另 一 方面 ， 为 了 提高 查询 
性 能 ， 系 统 可 能 会 决定 忽略 那些 跟 应 用 相关 的 索引 组 成 部 分 ， 并 且 只 是 偶尔 更 新 锚 信 息 和 
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PageRank 分 值 。 然 而 ， 这 种 方法 对 搜索 引擎 的 效率 以 及 用 户 的 满意 度 的 影响 还 尚未 研究 。 

Chiueh 和 Huang (1998) 以 及 Biittcher 和 Clarke (2005a) 讨论 了 几 种 处 理 文档 删除 的 
方法 。Chiueh 和 Huang 的 方法 特别 有 趣 。 他 们 提出 垃圾 回收 不 仅 要 集成 到 搜索 引擎 的 合并 
操作 中 ， 而 且 还 应 合并 到 查询 处 理 逻 辑 中 : 每 当 从 索引 中 获取 一 个 查询 词 项 的 位 置信 息 列 
表 ， 就 用 当前 的 无 效 列 表 来 进行 过 滤 ， 再 将 结果 列表 放 回 索引 中 。 

Lim A (2003) 讨论 了 一 种 方法 ， 可 用 于 加 速 文档 集中 内 容 保 真 变换 〈 即 文档 修改 ) 
的 索引 维护 。 他 们 指出 他 们 的 landmark- diff 方法 与 基本 的 REBUILD 方法 相 比 ， 能 够 减少 
大 概 50 多 的 索引 维护 开销 。 然 而 ， 考 虑 到 总 的 索引 构建 代价 大 部 分 源 于 读 人 和 分 词 输入 数 
He CL 4.5. 3 节 )， 并 且 他 们 论文 中 的 性 能 没有 把 得 到 卓文 档 与 新 文档 之 间 的 差别 所 用 的 时 
间 算 人 进去 ， 因 此 ， 很 难说 在 实际 应 用 中 这 种 方法 将 会 怎样 。 

在 对 索引 维护 策略 进行 讨论 时 ， 我 们 忽略 了 块 索引 更 新 的 含义 。 例 如 ， 图 7-2 中 的 IM- 
MEDIATE MERGE 算法 ， 每 当 内 存 耗 尽 时 执行 一 次 合并 操作 。 当 在 执行 合并 操作 时 ， 不 多 
许 新 的 位 置信 息 加 入 到 索引 中 。 在 GOV2 的 例子 中 ， 将 内 存 索 引 与 磁盘 上 已 有 的 索引 合并 
可 能 需要 一 个 小 时 一 一 很 难 快 到 可 以 成 为 实时 (real-time) 操作 。Strohman (2005) 描述 了 
很 多 用 来 支持 真正 的 实时 更 新 和 查询 操作 的 技术 (如 背景 磁盘 TO) 。 

最 后 再 说 明 一 下 ， 有 必要 指出 本 章 介 绍 的 所 有 索引 维护 机 制 的 性 能 与 索引 所 使 用 的 压缩 
技术 紧密 相关 。 例 如 ， 如 果 合 并 操作 的 索引 对 象 未 压缩 或 是 压缩 得 不 好 ， 那 么 很 容易 就 需要 
花 两 倍 的 时 间 ， 因 为 磁盘 W/O 增加 了 。 越 好 的 压缩 率 可 直接 导致 越 好 的 更 新 性 能 。 另 一 方 
面 ， 对 于 垃圾 回收 ， 相 当 一 部 分 的 复杂 度 来 源 于 对 位 置信 息 列表 的 解压 和 再 压缩 ， 因 此 ， 选 
择 一 个 可 以 高 效 编码 和 解码 的 压缩 方法 是 很 重要 的 ; 这 时 压缩 率 倒 没 有 那么 重要 。 特 别 地 ， 
无 参数 编码 ， 如 vByte ( 见 6. 3.4 节 )， 应 该 比 带 参 数 的 编码 ， 如 LLRUN ( 见 6.3.2 节 ) 更 
受 青 睐 ， 因 为 当 编 码 一 个 给 定 列表 时 ， 前 者 只 需要 在 输入 数据 上 扫描 一 遍 。 


7.6 练习 


练习 7. 1 假设 搜索 引擎 采用 就 地 更 新 策略 来 维护 磁盘 上 的 索引 。 内 存 足 以 用 来 缓存 1000 万 个 位 置信 
息 ， 且 搜索 引擎 正在 索引 的 文档 集 的 齐 夫 参 数 a 二 1. 33 (GOV2) 。 请 问 ， 当 搜索 引擎 耗 尽 内 存 时 ， 需 要 创建 
或 者 更 新 多 少 个 磁盘 上 的 倒 排 列表 ?如果 每 个 列表 更 新 都 需要 一 次 磁盘 寻 道 ， 每 次 磁盘 寻 道 需要 10 ms, A 
么 更 新 所 有 列表 需要 的 磁盘 寻 道 时 间 为 多 少 ? 

练习 7.2 ”假设 搜索 引擎 采用 按 比 例 预 分 配 GRAS: k=2) 的 INPLACE 策略 。 证 明 : 给 定 任 意 
列表 ， 传 出 /传人 磁盘 的 总 字 节 数 小 于 5X s，s 是 磁盘 列表 的 字 节 数 。 你 可 以 假设 所 有 的 位 置信 息 的 大 小 相 
等 《比如 4 字 节 )。 

练习 7.3 7.2.2 节 给 出 了 基本 的 LOGARITHMIC MERGE 策略 的 索引 构建 复杂 度 为 @(N + log(N/ 
M))。 证 明 : 带 预测 的 LOGARITHMIC MERGE 版 本 执行 避免 标签 冲突 的 多 路 合并 的 时 间 复 杂 度 也 是 
OCN + log(N/M)). 

练习 7. 4 (项 目 练习 ) KA 7. 2.1 节 中 的 IMMEDIATE MERGE 索引 维护 策略 。 实 现 之 后 ， 你 的 搜索 
引 警 就 能 够 在 文档 被 加 入 到 索引 中 后 立即 在 新 加 入 的 文档 上 作 查 询 ， 而 不 需 等 下 一 次 的 合并 操作 。 
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Information Retrieval; Implementing and Evaluating Search Engines 


在 这 一 章 和 下 一 章 ， 我 们 将 检视 几 个 对 研究 和 实际 都 产生 重大 影响 的 信息 检索 模型 。 本 
章 我 们 讨论 概率 模型 (probabilistic model) 。 第 9 章 我 们 将 涵盖 语言 模型 (language model- 
ing) 及 相关 方法 。 在 信息 检索 中 ，“ 模 型 ”一 词 至少 有 两 个 不 同 的 重要 含义 (Ponte 和 
Croft，1998) 。 其 中 一 个 含义 表示 “检索 任务 本 身 的 一 个 抽象 ”〈 例 如 向 量 空间 模型 )。 正 如 
我 们 将 看 到 的 那样 ， 当 涉及 相关 性 模型 或 文档 内 容 模型 时 ， 它 也 用 于 表示 “统计 模型 ”。 

尽管 很 多 信息 检索 模型 表达 为 概率 的 形式 ， 但 这 个 词 往 往 与 Stephen Robertson, Karen 
Sparck Jones 以 及 他 们 在 伦敦 城市 大 学 、 剑 桥 大 学 、 剑 桥 微软 研究 院 的 同事 从 1970 早期 开 
始 提 出 的 方法 相关 联 。 在 那 段 时 间 里 ， 他 们 通过 一 系列 的 创新 性 工作 提出 了 概率 检索 模型 ， 
并 将 其 发 展 为 至 今 最 成 功 的 信息 检索 模型 之 一 。 很 多 其 他 的 研究 小 组 将 这 个 模型 与 自己 提出 
的 检索 公式 进行 结合 ， 用 于 实验 性 的 信息 检索 系统 ， 并 由 此 评价 他 们 提出 的 方法 。 

本 章 的 组 织 紧 紧 围绕 这 个 模型 的 发 展 历 史 ， 依 次 关注 每 一 个 重要 的 扩展 和 创新 。 本 章 的 
大 部 分 内 容 都 建立 在 公式 〈8-48) 上 ， 即 BM25 公式 ， 它 代表 了 当前 在 该 领域 内 性 能 最 好 
(也 是 最 著名 ) 的 检索 公式 。 尺 管 使 用 BM25 公式 的 时 候 可 以 不 必 了 解 它 的 发 展 过 程 ， 但 出 
于 它 本 身 的 缘故 和 考虑 到 作为 多 数 信息 检索 理论 的 推理 过 程 的 样 例 ， 我 们 还 是 给 出 一 些 关 于 
它 的 发 展 细节 。 

本 章 包 括 了 相关 性 反馈 的 一 个 综述 ， 它 是 与 概率 和 向 量 空间 模型 紧密 相关 的 一 个 查询 扩 
展 技术 。 我 们 还 介绍 了 BM25 公式 的 一 个 重要 扩展 一 一 BM25F， 它 通过 给 出 现在 文档 不 同 
部 分 的 查询 词 项 赋予 不 同 的 权重 ， 从 而 可 以 识别 出 现在 文档 主题 中 的 词 项 比 出 现在 文档 正文 
中 的 词 项 要 指示 更 高 的 相关 性 。 


8. 1 相关 性 建 模 
概率 模型 从 第 1. 2. 3 节 中 介绍 的 概率 排名 原则 (Probability Ranking Principle) 开始: 
如 果 一 个 信息 检索 系统 对 查询 的 响应 是 按 文档 集中 文档 的 相关 性 概率 递减 排名 的 ， 
那么 对 用 户 来 说 ， 系 统 的 整体 有 效 性 就 达到 最 大 。 
正如 在 第 1. 2. 3 节 中 介绍 的 那样 ， 这 一 原则 忽略 了 很 多 如 新 颖 性 、 特 异 度 和 详尽 性 等 的 
问题 ， 由 此 在 很 多 方面 简化 了 检索 问题 。 尽 管 如 此 ， 它 还 是 直接 为 我 们 勾勒 了 一 个 检索 算法 
的 轮廓 ， 给 定 一 个 查询 ， 决 定 每 个 文档 在 文档 集中 的 相关 性 概率 ， 并 依次 对 文档 进行 排序 。 
这 个 算法 的 实现 马上 就 把 我 们 带 到 Spirck Jones 等 人 《2000a)〉 所 说 的 “基本 问题 ”上 去 了 ， 
这 里 我 们 稍微 改变 了 一 下 陈述 形式 : 
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用 户 判断 这 个 文档 和 这 个 查询 相关 的 概率 是 多 少 ? 
我 们 现在 转向 如 何 估计 这 个 概率 的 问题 。 

采用 Lafferty 和 Zhai (2003) 所 讨论 的 概率 模型 方法 ， 我 们 引入 三 个 随机 变量 来 将 基本 
问题 转化 为 统计 表示 : D 是 文档 、Q 是 查询 、 二 元 随机 变量 R 是 用 户 对 相关 性 的 判断 。 对 
于 随机 变量 D， 作 为 搜索 引擎 索引 的 文档 集 ， 你 可 以 看 到 它 的 样本 空间 或 结果 集 。 然 后 你 可 
以 想象 一 组 用 户 在 同一 个 搜索 引擎 中 输入 查询 ， 这 些 查询 是 搜索 引擎 允许 用 户 输入 的 形式 ， 
即 样本 空间 Q。 搜 索引 擎 可 能 会 要 求 查询 的 形式 是 词 项 向 量 ， 但 现在 我 们 不 考虑 这 个 限制 。 
最 后 ， 二 元 随机 变量 R 的 值 为 1 或 0， 表示 相关 或 不 相关 。 用 以 上 这 些 表 述 ， 我 们 就 将 基本 
问题 转换 为 估计 一 个 正 相关 性 判断 的 概率 问题 ， 如 下 表示 : 

p(R=1|D=4d,Q=9) (8-1) 

该 公式 可 视 为 是 文档 和 查询 上 的 概率 密度 函数 。 为 了 和 研究 文献 中 的 符号 表示 一 致 ， 我 

MEXA “D” RE “D=d” A “Q” RE “Q=q”; 因此 





p(R=1|D,Q) (8-2) 
RE, RIA “r” Bem “R=1” A “r” SHAR “R=0”, Alt, 我们 有 : 
p(r|D,Q) =1— p#|D,Q) (8-3) 
贝 叶 斯 定理 〈 一 个 概率 论 中 的 基本 定理 ) 阐述 如 下 : 
_ P(B]|A) p(A) _ 
P(A|B) = p(B) (8-4) 


对 公式 (8-3) 应 用 贝 叶 斯 定理 可 以 得 到 : 
P(D,Q|r) p(r) 


p(r|D,Q) = DQ). (8-5) 
p(F|D,Q) = meee © (8-6) 


现在 ， 我 们 不 继续 讨论 概率 ， 我 们 先 来 看 看 对 数 比值 〈log- odds), BK logit， 它 可 以 简化 公 
式 的 表达 和 操作 。 给 定 一 个 概率 p, p 的 logit 定义 为 


logit(p) = log (=) 5 (8-7) 


其 中 对 数 的 底 可 任意 选择 。 本 书 中 如 果 要 为 例子 或 实验 定 一 个 底 ， 我 们 选择 2 为 底 。 
log-odds 拥有 很 多 有 用 的 性 质 。 当 p 在 0 一 1 之 间 变 化 时 ，logit(2) 从 一 ce 一 co 之 间 变 
化 。 如 果 比 值 均等 CAP p=0.5), M logit(p) 二 0。 给 定 两 个 概率 p Allg, logit(p)> logit 
(OHHH 2 六 9。 因此 1log-odds 和 概率 是 等 秩 (rank-equivalent) 的 一 一 对 一 个 排名 与 对 
另 一 个 排名 得 到 的 结果 是 一 样 的 。 等 秩 变 换 (也 成 为 保 秩 (rank- preserving) 或 保 序 Cor- 
der- preserving) 变换 ) 对 于 简化 信息 检索 模型 的 发 展 是 非常 有 用 的 工具 。 
取 公 式 〈8-2) 的 log-odds， 运 用 贝 叶 斯 定理 〈 公 式 (8-5) 和 (8-6))， 可 得 : 








arlDp,@) , w(r|D.Q) _ 
og p71D,Q) ~ E 5 万 ,9) (8-8) 
=] p(D, Q|7) p(r) (8-9) 


08 A 
p(D,Q|F) p(F) 
转换 成 log-odds 的 直接 好 处 就 是 去 掉 了 词 项 pC(D,Q@)， 不 用 估计 它 了 。 

我 们 将 公式 (8-8) 中 的 联合 概率 用 等 价 式 p(D,Q|R) 一 pCDIQ,R)。 IVIR 
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为 条 件 概率 。 这 样 扩展 条 件 概 率 和 第 二 次 运用 贝 叶 斯 定理 ， 可 得 : 
pD, Q|r) P(r) _ log p(D|Q,r) p(Q17) p(r) 
p(D, Q|F) p(7) p(D|Q,7) p(Q|7) p(7) 
_, p(DIQ,r) p(r|Q) 
= 18 DIR, A PFQ) 
D|Q,r r 
a oe 
WT “log(p(r|Q)/pCF|Q))” WLF D。 你 可 以 将 其 视 为 一 个 查询 难度 的 指标 。 若 为 了 
排名 ， 在 任何 情况 下 都 可 以 忽略 它 一 一 男 一 种 保 序 转换 一 一 留 给 我 们 排名 公式 
p(D|Q,7r) 
p(D|Q,7) 
这 个 式 子 是 概率 检索 模型 的 核心 ， 当 我 们 研究 估计 它 的 几 种 方法 时 会 再 次 提 到 它 。 


8.2 ”二 元 独立 模型 

在 我 们 第 一 次 为 公式 〈8-13) 估计 值 时 ， 只 考虑 文档 和 查询 里 词 项 的 存在 或 缺失 。 使 用 
二 元 随机 变量 的 向 量 形式 重新 定义 代表 文档 的 随机 变量 D, BI D=<D,, Dz, >, Hepes 
一 维 代表 一 个 词汇 表 y 中 的 一 个 词 项 ，D; 二 1 表示 对 应 词 项 在 文档 中 存在 ，D; =0 表示 对 应 
词 项 在 文档 中 缺失 。 类 似 的 ， 我 们 使 用 二 元 随机 变量 的 向 量 形式 重新 定义 代表 查询 的 随机 变 
E Q., MOSQ, Qo eo, EF Q; 二 1 表示 对 应 词 项 在 查询 中 存在 ， 而 Q:=0 表示 对 应 
词 项 在 查询 中 缺失 。 

现在 我 们 给 出 两 个 强 假设 。 其 中 第 一 个 是 独立 假设 : 

假设 T; 给 定 相关 性 ， 词 项 在 统计 上 互相 独立 。 

换 名 话说， 给 定 正 相关 判断 ， 一 个 词 项 的 存在 或 缺失 并 不 依赖 于 其 他 任何 词 项 的 存在 或 
缺失 。 相 似 的 ， 给 定 负 相关 判断 ， 一 个 词 项 的 存在 或 缺失 也 不 依赖 于 任何 其 他 词 项 的 存在 或 
人 缺失。 自然 的 ， 如 果 不 在 相关 性 上 给 予 条 件 ， 词 项 之 间 并 不 是 相互 独立 的 ， 因 为 往往 有 多 个 
词 项 的 出 现 概 率 依赖 于 相关 性 。 

这 个 假设 并 没有 准确 地 反映 现实 。 例 如 ，“shakespare” 这 个 词 项 在 文档 中 的 存在 将 会 
提高 词 项 “william”、“hamlet” 及 “stratford” 等 在 文档 中 出 现 的 概率 。 但 这 个 假设 又 确实 
简化 了 为 公式 (8-13) 估计 值 的 问题 。 与 这 个 假设 相仿 的 独立 假设 在 信息 检索 中 比较 常见 。 
在 这 个 假设 之 下 建立 的 方法 尽管 含有 上 述 不 现实 的 特征 ， 通 常 却 提供 了 较 好 的 效果 。 

作为 上 述 假设 的 结果 ， 我 们 可 以 重 写 公 式 (8-13) 中 的 概率 ， 将 其 转化 为 D 中 各 维度 
上 单个 随机 变量 概率 的 积 .: 


log (8-10) 


(8-11) 








= log 





log 





(8-13) 


{Vv | 


PA(D|Q,r) = 工 p(Di1Q,r) (8-14) 
i=1 
[VI 
p(D|Q,7) = [I r(DilQ,7) (8-15) 
i=l . 
公式 (8-13) 变 为 ， 


|v] 
1 p(D|Q,7r) 一 p(D:i | Q,7) 
8 DO ~ Z E DTO (8-16 
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第 二 个 强 假设 将 一 个 词 项 在 查询 中 的 出 现 与 它 在 一 个 相关 文档 中 的 出 现 概率 联系 起 来 ， 
从 而 明晰 了 查询 应 该 扮演 用 户 需求 与 文档 相关 性 之 间 桥 梁 的 角色 。 
假设 Q: 只 有 一 个 词 项 出 现 于 查询 中 时 ， 它 在 文档 中 的 存在 才 依 赖 于 相关 性 。 
为 了 形式 化 这 个 假设 ， 我 们 需要 调整 查询 的 定义 ， 给 定 =q, qz, HER q: 
或 为 0 或 为 1。 根据 假设 Q， 如 果 qi: 一 0， 则 
P(Di|Q,7r) = p(Di|Q,7) 
所 以 
P(D:1Q,r) _ 
p(D:i|Q,7) 
这 个 假设 的 效果 是 将 公式 〈8-16) 中 对 所 有 词汇 表 中 词 项 求 和 转化 为 对 所 有 查询 中 词 项 求 
和 。 因 为 对 查询 进行 条 件 分 析 现 在 已 是 多 余 ， 我 们 可 以 将 其 忽略 ， 排 名 公式 将 变 为 
So log on E 
(8-17) 


t€q 
其 中 Di mld), do, > Pin t 对 应 和 
同 假设 工 一 样 ， 假 设 Q 也 没有 准确 地 反映 现实 。 假 设 我 们 对 William Shakespare 的 婚 
姻 有 兴趣 ， 键 入 查询 


log 





ny 66 


{ “william”, “shakespeare” , “marriage” ) 


一 个 相关 文档 与 一 个 不 相关 文档 比 起 来 ， 将 有 更 大 的 概率 包含 词 项 “hathaway”， 即 使 这 个 
词 项 并 没有 出 现在 查询 中 。 但 是 ， 从 实际 的 角度 来 说 ， 对 查询 中 所 有 词 项 求 和 要 比 对 词汇 表 
中 所 有 词 项 求 和 更 可 行 ， 我 们 欢迎 这 个 进展 ， 它 在 某 种 程度 上 减轻 了 计算 负担 。 
我 们 现在 调整 D 一 4 一 《di ， ds,…》， 其 中 di 或 为 0 或 为 1， 因此 将 随机 变量 的 信 显 式 表 
示 出 来 了 。 扩 展 我 们 早先 的 符号 ， 用 D, 一 a, 表示 《di;，d;:,…) 中 对 应 词 项 t 的 随机 变量 值 : 
Yog PP = del”) (8-18) 
teq 8 p(D, = dh |F) 
当 所 有 的 查询 词 项 都 不 出 现在 文档 中 时 所 有 D; 等 于 0， 从 公式 (8-18) 中 减 去 它 本 身 的 值 ， 
p(D: = dz |r) p(D: = 0|r) 
log PSE = hr) _ PLD: = Or) 

2 °8 p(D, = d |F) X10 p(D: = 017) (8-19) 
因为 公式 (8-18) 的 值 在 所 有 查询 词 项 都 不 出 现 的 情况 下 是 一 个 常数 ,' 且 同时 减 去 一 个 常数 
对 排名 并 无 影响 ， 这 个 减法 代表 了 另 一 个 保 序 变换 。 进 行 一 些小 调整 : 

3 tow PD: = 11r) pD: = O17) _ y lo p(D: = 0|r) p(D: = 017) 


t€(qnd) te(q\d) 


其 中 左边 的 求 和 包含 了 所 有 出 现在 查询 和 文档 中 的 词 项 ， 右 边 的 求 和 包含 了 所 有 在 查询 中 出 
现 但 未 在 文档 中 出 现 的 词 项 。 因 为 右边 的 词 项 为 0， 公式 变 为 : 
p(D: = 117) p(D: = 0|F) 

og AD = TTF) AD. iA G21 


这 种 在 假设 工 与 假设 Q 下 ， 只 考虑 词 项 的 存在 与 缺失 ， 对 公式 (8-13) 进行 改进 的 方法 称 
之 为 二 元 独立 模型 (Binary Independence Model), 


8.3 Robertson/Sparck Jones 权重 公式 
为 简洁 起 见 ， 我 们 现在 大 幅 调 整 符号 。 去 除 公式 (8-21) 中 的 杂乱 表示 ， 我 们 将 其 重 
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写 为 
Wt 
te(qnd) 
其 中 wt: 是 每 个 词 项 的 权重 。 如 果 我 们 让 p:=p(D;=1 |r) #0 pi=p(D,=1 |r), 风 wr 
变 为 


(8-22) 


pt (1 — pt) 
we = log Be (1 — pe) 
因为 p(D.=0| r)=1— p(D,=1|/r)=1—p: 8 p(D.=0|r)=1— p(D, =1|r)=1—p,. 

如 果 我 们 能 估计 文档 集中 相关 文档 的 数量 期 望 与 包含 圭 的 相关 文档 的 数量 期 望 ， 那 么 对 
pi 与 pt 的 估计 也 可 以 确定 。 这 些 秆 计 ， 可 以 通过 例如 对 文档 集 进行 采样 并 对 样本 进行 相关 
判断 来 取得 。 虽 然 处 理 每 个 查询 时 都 使 用 这 样 的 方式 会 变 得 异常 地 繁重 ， 但 如 果 我 们 多 次 处 
理 同 一 个 查询 ， 这 样 的 方式 也 不 是 不 可 取 ， 因 为 文档 集会 周期 性 的 变化 。 

给 定 一 个 查询 ， 用 N, 表示 文档 集中 相关 文档 的 数量 期 望 ，N,,, 表 示 包 含 t 的 相关 文档 
的 数量 期 望 。 我 们 可 以 估计 pi 与 Pp; 如 下 


Nir 
pz = 


(8-23) 











N. 且 p= NN, 


其 中 ，N 是 文档 集中 文档 的 数量 ，N, 是 包含 t 的 文档 数量 。 结 合 公式 (8-23), ， 权 重 如 下 
Nar (N — Ne— N, + Nor) 





(8-24) 


tt = log (N, — Nix) (Ni — Nex) (8-25) 
当 我 们 知道 实际 的 相关 文档 数量 和 不 相关 文档 数量 时 ， 这 个 公式 通常 写 为 
w: = log (ner + 0.5) (N — Ni ~ nr + ner + 0.5) (8-26) 


(nr — ner + 0.5) (Ne — ne, + 0.5) 
Hp, n, 表示 对 相关 文档 的 数量 ，m4,; 表 示 包 含 t 的 相关 文档 的 数量 。 式 中 出 现 的 0.5 使 
计数 变 得 平滑 ， 例 如， 计数 0 并 不 会 导致 不 合理 〈 即 无 限 ) 的 权重 。 正 如 第 1 章 提 到 的 ， 这 
种 简单 的 平滑 处 理 在 信息 检索 中 比较 常见 ， 在 其 他 的 统计 自然 语言 处 理应 用 中 也 颇 为 常见 。 
公式 (8-25) 与 公式 (8-26) 也 许 使 你 联想 到 第 2 章 介 绍 的 逆 文 档 频 率 〈IDF) 公式 
(公式 〈2-13))， 因 为 文档 数 N 出 现在 分 子 部 分 ， 而 包含 词 项 上 的 文档 数 N, 出 现在 分 母 上 。 
将 这 个 观察 推进 一 步 ， 我 们 使 用 两 项 重 写 公 式 〈8-23)， 其 中 一 个 与 相关 性 联系 ， 另 一 个 与 
不 相关 性 联系 : 
i n- + log - -A (8-27) 
Ner N- Nr- N:+ Nir 
Nr — Nir 
左边 的 项 是 包含 词 项 t 的 相关 文档 的 对 数 比 值 。 如 果 我 们 假设 N, 与 Ni,. 相 对 N 和 Ni 来 说 
较 小 一 一 这 对 于 大 文档 集中 的 常见 词 项 来 说 是 合理 的 ， 我 们 可 以 通过 设 定 N, 二 NN,,, 一 0 通 
近 右 边 的 项 








wt = log 





= log (8-28) 








w, = logit(p:) + log N i (8-29) 
这 个 形式 与 IDF 更 像 了 。 提 出 这 个 公式 的 Croft 与 Haper (1979) 注意 到 ， 如 果 p.=0.5, 
E N: 相对 NN 来 说 较 小 ， 则 这 个 公式 近似 于 标准 的 IDF 公式 。Robertson 和 Walker (1997) 
注意 到 ， 如 果 使 p= 二 1/ (1 十 (CN 一 N,)/N))， 那 么 公式 变 为 
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N 
we = log N, (8-30) 


即 为 标准 的 IDF 公式 。 

公式 (8-23) 称 为 Robertson/Spirck Jones 权重 公式 (Robertson/Spirck Jones weigh- 
ting formula) 。 根 据 可 用 的 相关 性 信息 ， 我 们 可 以 使 用 公式 〈8-25)、 公 式 (8-26) 或 公式 
(8-30) 中 的 任意 一 个 来 估计 它 的 值 。Robertson 和 Walker (1997) 建议 在 只 有 最 少 相关 性 
信息 可 用 的 时 候 使 用 其 他 的 变形 公式 。 在 本 章 接 下 来 的 部 分 中 ，w, 的 出 现代 表 了 任何 或 所 
有 这 些 变形 。 

当 没 有 相关 性 信息 可 用 时 ， 通 常 假设 w 就 代表 了 标准 的 IDF 公式 。 同 样 可 以 被 接受 的 
是 通过 设 定 %, 王 sr 一 0 来 使 用 公式 〈8-26) ， 但 这 里 值得 特别 注意 的 是 权 值 不 能 为 负 |S 
见 练习 8. 2) 。 如 果 一 个 权 值 应 该 为 负数 ， 那 就 用 0 来 替代 。 

当 有 相关 性 信息 可 用 时 ， 即 使 当 我 们 并 没有 ON, AON, 的 精确 估计 ， 使 用 公式 (8- 26) 
也 是 合理 的 。 例 如 ， 在 执行 完 一 个 查询 后 ， 搜 索引 擎 可 能 会 要 求 用 户 指出 一 小 部 分 的 相关 文 
档 。 如 果 用 户 指 出 三 个 相关 文档 ， 其 中 两 个 都 含有 词 项 t, RIE n, =3 H ”一 2。 同 样 
地 ， 特 别 注意 要 避免 负 的 权重 。 

由 此 ， 我 们 转 了 一 整 圈 又 回 到 了 IDF， 这 个 在 第 2 章 中 我 们 仅 赁 直觉 与 实验 来 证 明 是 正 
确 的 公式 。 虽 然 我 们 行走 的 是 一 条 遍布 不 切实 际 的 独立 假设 与 粗粮 近 似 的 崎 邮 路 ， 但 现在 却 
切实 地 从 一 条 以 概率 排名 原则 为 起 点 的 理论 线路 又 回 到 了 IDF。 这 也 是 典型 的 信息 检索 研究 
过 程 。 成 功 的 检索 方法 通常 都 是 在 理论 与 实验 的 相互 支持 中 被 创造 与 验证 的 。 

遗憾 的 是 ， 从 设计 一 个 有 效 排名 公式 的 角度 来 说 ， 我 们 目前 还 没有 什么 进展 。 在 没有 相 
关 性 信息 的 情况 下 直接 应 用 公式 (8-22)， 与 第 2 章 中 提 到 的 将 TF 系数 设 为 常数 1 且 不 使 
用 文档 长 度 归 一 化 的 向 量 空间 模型 相 比 ， 并 没有 取得 更 好 的 效果 。 

作为 一 个 简单 的 例子 ， 让 我 们 回 到 表 2-1 中 的 文档 集 。 应 用 公式 (8-22)， 并 使 用 IDF 
估计 w:， 从 而 针对 查询 《quarrel”,，“sir”》 为 文档 集 排名 。 这 个 文档 集 包含 了 N= 二 5 个 文 
档 ， 其 中 两 个 文档 包含 词 项 “quarrel”， 四 个 文档 包含 词 项 “sir”， 给 定 IDF HF: 

Wauarrer = log(5/2) ~ 1.32, war = log(5/4) ~ 0.32 (8-31) 
使 用 这 些 权 重 ， 我 们 为 文档 1 和 文档 2 赋予 1. 64 的 得 分 ， 文档 3 与 文档 5 赋予 0. 32 的 得 
分 ， 文档 4 赋予 0 得分。 由 于 这 些 得 分 只 反映 了 词 项 的 存在 ， 即 使 文档 2 中 词 项 “sir” 出 现 
次 数 比 文档 1 中 多 一 次 ， 文档 1 与 文档 2 的 分 数 还 是 一 样 的 。 


8.4 词 频 

在 第 2 章 中 我 们 列 出 了 一 些 简 单 的 文档 特征 ， 基 本 排名 方法 使 用 这 些 文档 特征 比较 文档 
并 确定 合适 的 排名 。 这 些 特征 包括 词 频 《term frequency)、 词 项 邻近 度 (term proximity), 
和 文档 长 度 Cdocument length) 。 迄 今 为 止 ， 我 们 建立 的 概率 模型 中 只 考虑 了 词 项 存在 ， 这 
本 质 上 是 词 频 的 一 个 弱化 的 形式 。 为 了 将 模型 拓展 到 完全 适应 词 频 ， 我 们 必须 回 到 公式 
《8-13) 并 重新 考虑 使 用 随机 变量 D 对 文档 进行 表示 。 

在 8.2 节 的 开头 我 们 使 用 了 二 元 向 量 的 向 量 形式 重新 定义 了 随机 变量 D= 《Di， 
Dz ,…>， 其 中 每 个 随机 变量 D; 表示 一 个 特定 词 项 的 存在 或 缺失 。 回 到 这 一 点 ， 我 们 可 以 重 
新 使 用 修改 后 的 D AEX, E DSF, Fa, RREA F, 表示 文档 中 一 个 对 应 词 项 的 
出 现 频率 ， 进 而 重复 8. 2 节 中 的 步骤 。 如 我 们 在 8. 2 节 中 做 的 一 样 ， 我 们 还 定义 这 个 向 量 中 
的 随机 变量 F, 对 应 一 个 词 项 t。 
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与 我 们 在 8. 2 节 中 做 的 一 样 ， 保 持 假设 工 与 假设 Q 不 变 ， 同 时 进行 微小 的 调整 从 而 使 

其 能 够 适应 我 们 从 词 项 存在 转变 为 词 频 的 变动 ， 能 够 得 到 与 公式 (8-21) 相似 的 如 下 公式 : 
PF, = filr) pF = 0|7 
a 6 PUR, = fil?) aa =a (8-32) 

其 中 ，f 表示 词 项 t 在 文档 中 出 现 的 次 数 〈( 参 见 练习 8. 3) 。 为 了 使 用 这 个 公式 ， 我 们 需要 
估计 p (Fi 二 fi17) 和 pCF; 二 fi|17)， 也 就 是 相关 或 不 相关 的 词 频 概率 。 为 了 估计 这 些 值 ， 
我 们 必须 反 过 来 考虑 词 频 与 相关 性 之 间 的 关系 。 

当 撰 写 某 个 主题 的 文档 时 ， 作 者 通常 会 选择 与 该 主题 相关 的 词 项 。 因 此 ， 如 果 一 个 词 项 
与 一 个 特定 的 主题 有 关联 ， 我 们 可 以 期 望 它 在 关于 这 个 主题 的 文档 中 出 现 的 次 数 远 远 多 于 它 
在 与 此 主题 不 相关 之 文档 中 出 现 的 次 数 。 但 另 一 方面 ， 这 个 词 项 依然 会 偶尔 出 现在 与 该 主题 
不 相关 的 文档 中 。 

Bookstein 和 Swanson (1974) 尝试 用 Robertson 等 人 (1981) 以 及 Robertson 和 Walk- 
er (1994) 称 为 精华 性 〈eliteness) 的 概念 来 捕捉 主题 与 词 项 之 间 的 关系 。 一 个 文档 被 称 为 
是 词 项 t 的 精华 (elite)， 是 指 它 在 某 种 程度 上 与 这 个 词 项 相关 。 通 过 转换 这 种 关系 ， 我 们 
可 从 词 频 中 推测 词 频 是 精华 的 概率 一 一 词 频 越 大 ， 这 个 词 项 在 文档 中 是 精华 的 可 能 性 就 越 
大 。 因 此 ， 相 关 性 与 词 频 之 间 的 关系 就 和 精华 性 这 个 概念 吻合 了 。 粗 略 来 说 ， 关 于 特定 主题 
的 文档 有 更 大 可 能 在 与 这 个 主题 相关 的 词 项 上 是 精华 ， 因 此 这 些 词 项 将 有 更 大 可 能 在 这 些 文 
档 中 出 现 。 

对 于 每 个 词 项 t+， 我 们 都 定义 一 个 对 应 Fe HITCHES E KRONE. E, 
二 1 表示 一 个 文档 在 +t LEME, E= 表示 此 文档 在 上 上 不 是 精华 。 与 相关 性 一 样 ， 我 们 
定义 e KE =1 的 缩写 ，8 HE 一 0 的 缩写 。 我 们 在 缩写 中 省 略 了 下 标 t 因为 所 代 指 的 
词 项 往往 是 明显 的 。 接 着 相关 性 与 词 频 之 间 的 关系 可 以 规范 化 如 下 表示 : 

pF = filr) = pR = feje) plelr) + pf = file) pElr) 
pF, = fil?) = pF: = fele)- plel®) + pF = fele): pel?) 
ee cal (8-32) 中 的 项 ， 得 到 
De = frle)p(e|r) +p(F: = file)p(elr))(p(F: =0|e)p(el7) +p(F: = 0|8)p(el7)) 
coe file)p(el7) + p(F = fc @)p(2|7)) (P(e = Ole)p(elr) + pA = 0[€)pElr)) 

现在 我 们 转向 估计 这 个 式 子 中 的 单个 概率 的 问题 ， 


(8-33) 


8.4.1 Bookstein 的 双 泊 松 模型 


为 了 将 精华 性 的 模糊 定义 变 得 更 具体 ， 我 们 使 用 一 个 特定 的 分 布 来 表示 文档 中 的 词 
IAH (Poisson distribution) KIRA: 一 个 泊 松 分 布 对 应 那些 在 词 项 上 是 精华 
me 另 一 个 对 应 在 词 项 上 不 是 精华 的 文档 。 这 个 双 泊 松 分 布 由 Bookstein 提出 (参见 
Harter, 1975, 199 页 )， 并 接 下 来 被 Harter (1975), Bookstein 和 Swanson (1974), 
Bookstein 和 Kraft (1977) 发 展 及 验证 。 

泊 松 分 布 于 1838 年 由 法 国 数学 家 Siméon Denis Poisson 发 明 ， 其 后 被 广泛 应 用 于 对 一 
段 时 间 中 某 类 预定 义 事件 的 发 生 情况 的 建 模 中 。 例 如 ， 泊 松 分 布 可 以 用 来 为 一 个 特定 路 口 每 
年 发 生 的 交通 事故 建 模 ， 可 以 为 一 个 Web 服务 器 每 分 钟 被 访问 的 次 数 建 模 ， 也 可 以 为 一 克 
铀 一 238 在 一 秒 钟 释放 的 a 粒子 的 数目 建 模 。 泊 松 分 布 中 ， 一 段 时 间 内 发 生 的 事件 被 假设 为 
与 另 一 个 不 重要 时 间 内 发 生 的 事件 是 随机 独立 的 。 也 就 是 说 ， 一 个 时 间 段 中 发 生 的 事件 数目 
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不 会 影响 另 一 个 独立 时 间 段 中 发 生 的 事件 数目 。 在 我 们 的 情况 中 ， 我 们 使 用 泊 松 分 布 来 为 一 
个 给 定 词 项 在 一 个 文档 中 出 现 的 次 数 建 模 ， 其 中 一 个 词 项 的 出 现 作为 一 个 “事件 ”， 而 整个 
文档 则 对 应 “时 间 段 ”的 概念 。 

给 定 一 个 非 负 整数 上 的 随机 变量 X 和 一 个 代表 给 定时 间 段 内 平均 事件 个 数 的 实数 值 参 
数 j， 泊 松 分 布 定义 如 下 : 


e tp 
gc 六 = 一 全 (8-34) 


为 了 使 用 这 个 分 布 来 为 词 项 分 布 建 模 ， 我 们 必须 假设 所 有 文档 的 长 度 相 等 。 这 个 假设 并 不 是 
那么 切合 实际 ， 因 为 一 个 文档 集 可 能 同时 包括 了 书籍 与 电子 邮件 信息 ， 它 们 之 间 的 长 度 差异 
可 能 是 1000 倍 或 更 多 。 然 而 ， 我 们 现在 先 接受 这 个 假设 ， 并 在 本 章 稍 后 时 候 重新 讨论 。 
为 了 建立 双 泊 松 分 布 ， 我 们 为 精华 文档 与 不 精华 文档 假设 不 同 的 平均 数 ， 记 为 /pe 与 Ke。 
根据 精华 性 的 定义 ， 有 He 之 he 。 如 果 我 们 让 g 二 plel7) 且 9 二 plelr)， 并 带 入 公式 (8-33), 
得 到 以 下 公式 ， 组 成 了 相关 和 不 相关 文档 的 两 个 模型 : 
P(Fi = filr) = g(fi, He) -q+ 9(ft, pe): (1-49) (8-35) 
D(Ft = fi|7) = g( ft, he) + (ft, pe) (1— 9) (8-36) 
WAAR (8-32)， 得 到 
Sio (g(fi, Me) q + 9( ft, Me) (1-9) - (9(0, pe) + g(0, ue) (1 — @)) 
tee  (9Cfis Me) G+ 9(fes Me) (1— DD): (9(0, He) g + 9(0; He) (1 — 9) 
虽然 一 眼看 上 去 这 个 公式 中 的 词 项 权重 显得 非常 复杂 ， 但 事实 上 它 的 结构 非常 简单 。 每 
个 出 现在 分 子 或 分 母 中 的 因子 都 是 体现 精华 性 与 非 精 华 性 的 两 个 泊 松 分 布 的 混合 。 给 定 一 个 
词 项 ， 有 四 个 参数 需要 被 确定 : Le 、He、g 和 9 。 可 以 想象 ， 这 些 参 数 的 估计 可 以 通过 词 项 
统计 信息 来 取得 。 具 体 的 ， 取 那些 使 词 项 权重 和 文档 集 里 实际 词 项 分 布 达 到 最 优 拟 合 的 参 
数值 。 
虽然 众多 研究 者 已 经 在 这 条 路 线 上 付出 了 诸多 努力 ， 却 鲜 有 公开 的 成 果 。 特 别 是 由 于 精 
华 性 是 一 个 不 能 直接 观测 的 隐藏 变量 ， 这 使 估计 过 程 变 得 尤其 复杂 。 但 我 们 依然 能 够 从 词 项 
权重 上 观察 到 一 些 有 用 的 信息 。 
首先 ， 正 如 我 们 预期 的 那样 ， 当 一 个 词 项 缺失 时 《fi 二 0)， 该 词 项 的 权重 为 0。 其 次 ， 
随 着 f 的 增 大 ， 赋 予 的 权重 也 随 之 增 大 。 同 样 ， 这 种 特性 与 我 们 的 预期 一 致 。 
最 后 ， 我 们 考虑 当 词 项 数目 增长 到 无 限 〈 户 -~>co) 时 权重 的 特性 。 通 过 重新 排列 ， 公 式 


(8-37) 


(8-37) 变 为 
所 (a+ g a-a) (Supa + a) 
现在 





Re 和 pel = glte—He . (e) 
g(fts He) ere Heft He 
因为 Le 二 ke ， 当 f, 趋 近 于 无 限时 ， 此 式 趋 近 于 0， 且 
9(0, He) _ ons-pe 
g(0, pe) 
所 以 ， 随 着 fimoo, Ask (8- 38) 中 的 词 项 权重 趋 近 于 
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reHrs-Hke 十 (1 一 7 
sad iea (8-39) 

对 任何 词 项 来 说 都 是 一 个 常数 。 所 以 ， 随 着 词 项 数量 的 增加 ， 其 权重 趋 于 饱和 (saturate)， 
达到 公式 (8-39) 中 的 渐 近 最 大 值 。 换 名 话说， 一 个 词 项 通过 重复 多 次 的 形式 来 为 文档 贡献 
得 分 是 有 限度 的 。 而 且 ， 如 果 我 们 假设 er*-“ 较 小 ， 其 对 权重 的 贡献 有 限 ， 将 其 近似 为 0。 
这 样 权 重 变 为 ， 

og we (8-40) 
这 个 权重 与 公式 (8-23) 中 Robertson/Sparck Jones 权重 相似 ， 且 这 并 不 是 偶然 的 。 当 式 中 
的 词 项 存在 被 精华 性 替代 ， 这 个 公式 与 公式 (8-23) 类 似 。 我 们 甚至 可 以 将 公式 (8-23) 看 
做 公式 (8-40) 的 一 个 近似 形式 。 





8.4.2 双 泊 松 模型 的 近似 


基于 我 们 对 于 公式 (8-37) 所 列 出 的 观察 信息 ，Robertson 和 Walker (1994) 建议 对 双 
泊 松 模型 中 的 词 项 权重 进行 一 个 简单 的 近似 ， 我 们 写作 
fea (ki +1) 


tha (8-41) 


其 中 ，fi,a 代 表 词 项 t 在 文档 d 中 的 出 现 频 率 ，Ww， 表示 Robertson/Sparck Jones 权重 的 任 一 
AIG, Hk, >0. 

与 我 们 观察 到 的 一 致 ， 当 fi,s 二 0 时 权重 为 0， 和 且 权重 随 着 fi,a 的 增长 而 增长 。 当 
六 ,一 1 时 ,权重 与 w. 相等 。 随 着 f1,s。 一 吕 ， 权 重 趋 近 于 (ki 十 1) w:。 因 此 ， 权 重 饱 和 到 一 
个 Robertson/Sparck Jones 权重 的 常数 因子 ， 与 公式 (8-38) 一 致 。 

典型 的 ，1 志 1 二 2， 且 对 于 所 有 查询 中 的 所 有 词 项 取 相 辣 的 值 。 我 们 使 用 ki 二 1.2 作 
为 例子 与 实验 中 的 默认 值 ， 因 为 这 个 值 已 在 研究 文献 中 被 广泛 接受 为 默认 值 。 在 实际 中 ， 因 
为 k 对 所 有 查询 中 所 有 词 项 都 相等 ， 我 们 可 以 将 其 作为 一 个 系统 参数 ， 进 而 针对 文档 集 及 
应 用 环境 来 调整 其 取 值 以 取得 最 好 的 效果 。 第 11 章 给 出 调整 此 参数 及 其 他 检索 公式 中 参数 
的 方法 。 

回 到 表 2-1 中 文档 集 的 例子 ， 我 们 应 用 公式 (8-41) 来 为 查询 <“quarrel”, “sir” XX 
档 集 进行 排名 。 为 文档 1 计算 得 分 为 








Jauarrei 1 (ky + 1) Soir 1 (kı + 1) kı + 1 kı + 1 
DT Wouarrel 十 OS Weir Y -1.32 十 - 0.32 = 1.64 
ky + fauarrel,1 a i ky + fir,1 kı + 1 kı + 1 
文档 2 的 得 分 为 
fauarrel,2 (ki + 1) foir,2 (ki + 1) kı +1 2(kı + 1) 
r uarre — Wir Ho 1.32 一 一 -一 一 :0.32 = 1.76 
kı 十 fauarrel,2 Wa i+ ky + fair,2 w ky +1 + ky +2 


词 项 “sir” 在 文档 2 中 多 出 现 一 次 ， 使 得 文档 2 取得 较 高 的 得 分 。 然 而 需要 注意 的 是 ， 一 个 
即使 含有 无 限 次 词 项 “sir” 出 现 ， 但 没有 “quarrel” 出 现 的 文档 ， 其 得 分 也 低 于 只 有 一 次 
“quarrel” 出 现 的 文档 得 分 。 即 使 文档 长 度 的 不 同 暗示 了 其 中 一 个 应 该 被 排 于 在 另 一 个 之 上 ， 
文档 3 和 文档 5 还 是 都 取得 了 0. 32 的 得 分 。 文 档 4 得 到 了 0 分 ， 因 为 它 不 含有 任何 查询 中 
的 词 项 。 

注意 到 公式 (8-41) 中 的 词 项 权重 属于 TF-IDF 家 族 。 然 而 ， 其 饱和 性 质 使 这 个 权重 与 
例如 公式 (2-14〉 中 的 其 他 研究 文献 中 介绍 的 权重 又 存在 着 显著 的 不 同 。 如 同 这 个 例子 所 展 


第 8 章 概率 检索 -183 


示 的 ， 饱 和 性 质 为 一 个 词 项 影响 一 个 文档 得 分 的 程度 做 出 了 限制 ， 无 论 这 个 词 项 在 文档 中 出 
现 了 多 少 次 。 


8.4.3 查询 词 频 


公式 (8-41) 可 扩展 为 与 词 项 频率 q 相关 的 形式 一 9: 即 词 项 t 在 查询 中 出 现 的 次 
数 一 一 通过 类 似 扩展 文档 词 频 的 方式 来 实现 。 在 一 个 短 查询 中 ， 查 询 词 项 的 重复 是 相对 少见 
的 。 然 而 ， 正 如 我 们 在 第 2 章 提 到 的 ， 在 一 些 环境 下 ， 整 个 文档 可 能 被 作为 一 个 查询 ， 尤 其 
是 当 实现 “更 多 相似 结果 ”的 功能 时 。 类 似 的 ， 一 个 用 户 可 以 很 容易 地 通过 将 文档 中 的 段落 
复制 粘贴 到 搜索 引擎 来 产生 一 个 较 长 的 查询 。 
如 果 我 们 把 一 个 文档 当做 一 个 潜在 的 查询 ， 则 查询 与 文档 间 的 对 称 关 系 就 变 得 相对 明 
显 。 这 就 暗示 了 一 个 有 如 下 形式 的 查询 词 频 因子 
qe (kg + 1) 
k3 + qt 
其 中 k> 是 一 个 类 似 于 k 的 系统 参数 。 (使 用 k: 是 标准 的 表示 法 ， 因 为 k: 已 经 在 
一 些 与 概率 模型 相关 的 研究 文献 中 被 用 作 了 其 他 用 途 .) 将 这 个 因子 结合 到 公式 (8-41) P, 
得 到 


(8-42) 


at ( ae (kg +1) fealka +1) 
are k3 + Qt ki + fta (8-43) 
然而 ， 对 于 查询 非常 长 的 情况 ， 查 询 中 词 项 的 重复 比 文档 中 词 项 的 重复 更 能 指示 词 项 的 
重要 性 。 因 此 ，ks 典型 的 值 要 比 对 应 ki 的 值 大 得 多 。 事 实 上 ks 一 co 的 设 定 也 较 常 见 ， 因 
此 可 将 公式 (8-42) WEA qes WRX Fas 一 cc， 得 到 如 下 的 排名 公式 
fi, d (ky + D iw 
2 kit fea 
我 们 也 可 以 将 式 中 求 和 看 做 是 在 整个 词汇 表 上 进行 的 求 和 ， 因 为 没有 出 现在 查询 与 文档 
中 的 词 项 权重 为 0。 因 此 ， 为 了 与 研究 文献 中 通常 使 用 的 方式 一 致 ， 我 们 在 本 章 余 下 的 部 分 
忽略 求 和 中 的 范围 约束 。 


8.5 文档 长 度 : BM25 
双 泊 松 模 型 中 一 个 不 现实 的 假设 是 所 有 文档 的 长 度 相同 。 为 了 考虑 不 同 的 文档 长 度 ， 一 
个 简单 的 方法 就 是 将 实际 词 频 f1,s 根 据 文档 长 度 归 一 化 : 
T'ia = fra (lave/la) (8- 45) 
Hp, Lu 是 文档 d 的 长 度 ，1。w 是 文档 集中 所 有 文档 的 平均 长 度 。 这 个 归 一 化 的 词 频 接 下 来 
可 以 替代 公式 〈8-44) 中 的 实际 词 频 : 


Sa , f't,a(ki +1) 
t ki + fla 


将 这 个 式 子 展开 并 重新 排列 其 中 的 项 ， 得 到 | 
Jia (lavg/la) (kı + 1) fealkkı +1) 

2 于 + fia (lave/la) mes -> tk (la/lavg) + fta oe 

虽然 这 个 调整 与 双 泊 松 模型 是 一 致 的 ， 但 公式 与 现实 依然 未 必 是 一 致 的 。 考 虑 两 个 文 

档 ， 其 中 一 个 文档 长 度 为 另 一 个 文档 的 两 倍 ， 且 长 文档 包含 两 倍 于 短文 档 的 词 项 次 数 。 公 式 


(8-44) 


“Wt (8-46) 


(8-47) 
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(8-47) 给 两 个 文档 赋予 相同 的 得 分 。 虽 然 ， 当 这 个 长 文档 包含 的 内 容 是 由 两 个 短文 档 内 容 
粘贴 得 到 时 ， 这 个 相同 得 分 的 结果 是 合理 的 ， 但 是 在 现实 情况 中 ， 我 们 可 能 会 期 望 这 个 长 文 
档 包 含 更 多 的 信息 ， 因 而 理应 获得 更 高 的 得 分 。 

Robertson ÆA (199) 建议 使 用 参数 b 控制 文档 长 度 的 归 一 化 程度 ， 进 而 混合 公式 
(8-47) 和 公式 (8-44)， 得 到 

fia (ki +1 
De CEERI OS ES Pa (8-48) 
其 中 0 委 8 委 1。 当 =0 时 ， 上 式 等 价 于 公式 (8-44); 当 b=1 时 ， 上 式 等 价 于 公式 
(8- 47) 。 如 参数 ki 一样， 参数 b 对 所 有 查询 是 相同 的 ， 同 样 也 可 以 根据 文档 集 及 信息 检索 
系统 的 环境 来 进行 调整 。 在 例子 与 实验 中 ， 我 们 使 用 默认 值 b=0. 75。 

现在 概率 模型 的 建立 到 达 了 一 个 关键 时 候 。 只 有 当 第 2 章 列 出 的 基本 特征 是 可 用 时 ， 公 
式 (8-48) 才 代 表 了 最 著名 的 排名 检索 方法 之 一 。 虽 然 它 首次 在 1993 年 出 现 于 TREC- 3， 
与 我 们 在 第 2 章 使 用 的 向 量 空间 模型 属于 同期 技术 ， 但 与 下 一 章 将 介绍 的 更 现代 的 语言 处 理 
模型 技术 相 比 ， 仍 保有 相当 的 竞争 力 。 它 通常 被 作为 基准 算法 ， 用 来 评判 新 方法 的 效果 。 在 
效果 上 大 幅 超过 它 的 方法 通常 需要 依赖 于 更 多 信息 的 扩展 ， 比 如 自动 查询 扩展 、 文 档 结 构 、 
链接 结构 或 者 在 依赖 大 量 相关 信息 上 训练 的 机 器 学 习 技 术 。 我 们 将 在 下 一 节 中 给 出 一 种 被 称 
为 伪 相 关 反 馈 的 自动 查询 扩展 形式 。 在 概率 模型 的 上 下 文中 考虑 文档 结构 的 内 容 将 在 8.7 节 
中 介绍 。 我 们 还 将 在 后 面 章节 讨论 机 器 学 习 以 及 链接 结构 时 回 到 概率 模型 。 

一 般 将 公式 (8-48) 称 为 “Okapi BM25”， 或 者 简单 地 称 为 “BM25”。Okapi 是 由 Ro- 
bertson 与 他 在 伦敦 城市 大 学 的 同事 共同 创造 的 一 个 检索 系统 的 名 字 。 在 这 个 系统 中 ， 第 一 
次 实现 这 个 公式 。“BM” 代 表 “ 最 佳 匹配 ” (“Best Match”), BM25 仅仅 是 Okapi 系统 所 实 
现 的 BM 公式 家 族 中 的 一 种 。 公 式 (8-22) 本 质 上 就 是 BM1， 而 公式 (8- 47〉 本质 上 是 
BM11, 公式 (8-44) 本 质 上 是 BM15。 然 而 ， 这 些 方法 没有 一 个 能 与 BM25 的 名 声 相 比 。 
后 者 的 名 声 ， 部 分 来 自 于 它 的 简单 与 有 效 。 参 与 TREC 评价 的 研究 人 员 从 TREC-5 开始 已 
经 通过 创造 和 搭建 自己 的 BM25， 而 在 很 多 个 TREC 任务 中 取得 了 可 靠 且 可 敬 的 成 绩 。 

考虑 将 BM25 应 用 在 表 2-1 中 的 文档 集 在 查询 “quarrel”, “si> EHS. IRE 
均 长 度 lw 二 (4 十 4 十 16 十 2 十 2)/5 二 28/5 二 5. 6。 文 档 1 得 分 为 : 


kr (1—0) +b (la/lang)) + fauarora 0 kr (1—0) +b af) + fi 
kı +1 kı+1 
pe gp — tong & 1 
kı ((1 — b) +b (5/5.6)) +1 + Ho a 032 ~ 172 


类 似 的 ， 文 档 2 的 得 分 为 1. 98， 文 档 3 的 得 分 为 0. 18， 文 档 4 的 得 分 为 0, 文档 5 的 得 
分 为 0. 44。 虽 然 文档 3 与 文档 5 中 词 项 “sir” 各 出 现 一 次 且 词 项 “quarrel” 并 没有 出 现 ， 
但 是 文档 5 因为 文档 长 度 的 原因 获得 了 更 高 的 得 分 。 


8.6 ”相关 反馈 


正如 8. 3 节 所 述 的 ， 可 用 的 相关 性 信息 可 以 提高 我 们 预测 w, 取 值 的 能 力 ， 进 而 提高 检 
索 的 性 能 。 一 个 获取 这 样 信息 的 场景 是 ， 信 息 检 索 系 统 执行 一 次 初步 搜索 ， 将 结果 展现 给 用 
户 ， 并 允许 用 户 从 结果 中 指出 一 定 的 相关 文档 。 即 使 这 种 相关 性 的 判断 在 数量 上 很 少 ， 它 们 也 
可 能 被 用 来 为 公式 (8-26) 中 的 n, 和 %*r 设 置 值 。 最 终 搜索 将 基于 这 些 改进 的 权重 执行 。 
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可 能 更 重要 的 是 ， 系 统 也 可 以 使 用 这 些 相关 性 判断 来 得 到 关于 相关 文档 本 质 的 更 多 信 
息 。 例 如 ， 我 们 可 以 从 用 户 指出 的 文档 中 选择 合适 的 词 项 ， 将 其 加 人 查询 中 。 这 个 扩展 后 的 
查询 可 以 用 于 第 二 次 及 最 后 一 次 搜索 。 类 似 这 样 的 查询 扩展 (query expansion) 技术 隐 式 地 
指出 了 假设 Q 的 局 限 : 一 个 词 项 在 文档 中 的 存在 可 以 依赖 于 相关 性 ， 即 使 这 个 词 项 并 不 存 
在 于 查询 中 。 

先 将 词 项 选择 的 问题 抛 开 ， 假 设 我 们 已 有 一 些 方法 能 够 为 词 项 评分 ， 基 本 的 相关 反馈 
(relevance feedback) 过 程 如 下 所 示 : 

D 执行 用 户 初始 查询 。 

2) 将 检索 结果 展示 给 用 户 ， 人 允许 用 户 浏览 结果 并 指出 相关 文档 。 

D 为 相关 文档 中 出 现 的 词 项 评分 ， 选 择 前 m 个 扩展 词 项 ， 选 择 时 忽略 初始 查询 词 项 。 

4) 将 新 词 项 加 入 起 始 查询 ， 调 整 权 重 w:， 并 执行 扩展 后 的 查询 。 

D 向 用 户 展现 最 后 检索 的 结果 。 

第 四 步 中 词 项 t 的 经 过 调整 后 的 权重 由 公式 (8-26) Re, HH, Kn, 设 为 用 户 指 出 的 相 
关 文 档 的 数量 ，? 设置 为 这 些 相关 文档 中 包含 圭 的 文档 数量 。 同 时 ， 因 为 初始 查询 中 的 词 
项 是 用 户 信 息 需 求 的 最 好 反映 ， 因 此 给 予 它 们 特殊 的 地 位 也 是 很 常见 的 。 这 个 额外 的 调整 可 
以 通过 将 扩展 词 项 的 权重 乘 以 一 个 常数 因子 y 来 体现 ， 其 中 y=1/3 是 典型 的 取 值 。 

相关 反馈 一 直 是 研究 工作 中 的 一 个 重要 主题 ， 我 们 可 以 用 多 种 方式 对 基本 反馈 过 程 进行 
扩展 和 修改 。 例 如 ， 人 允许 用 户 指出 不 相关 的 文档 ， 通 过 交互 式 的 调整 来 选 定 词 项 列表 ; 或 者 
多 次 重复 反馈 过 程 ， 允 许 用 户 按 意愿 增加 或 删除 词 项 等 。 并 且 ， 也 有 多 种 为 词 项 评分 的 方 
法 。 我 们 下 面 介绍 其 中 的 一 种 。 


8.6.1 词 项 选择 


Robertson (1990) 提出 了 一 种 基于 将 词 项 加 入 查询 后 相关 文档 和 不 相关 文档 的 预期 得 
分 变化 的 简单 词 项 选择 方法 。 假 设 我 们 现在 考虑 向 查询 中 加 入 词 项 t+。 在 8.3 节 中 ， 我 们 定 
义 pi 为 相关 文档 包含 t 的 概率 ，p; 为 不 相关 文档 包含 二 的 概率 。 考 虑 公式 (8-22), WE 
我 们 将 t 加 入 查询 ， 相 关 文 档 的 得 分 将 平均 增加 p:w:， 而 不 相关 文档 的 得 分 将 平均 增 
加 pew: 

这 两 个 预期 增幅 pew: Apiw: 间 的 差 越 大 ， 这 个 词 项 就 能 更 好 地 区 分 相关 与 不 相关 文 
档 。 所 以 我 们 在 相关 反馈 中 使 用 词 项 选择 值 〈term selection value) 来 为 词 项 评分 

we: (pe — De) (8-49) 

在 相关 反馈 的 上 下 文中 ， 如 果 用 户 指出 了 n, 个 相关 文档 ， 其 中 nu, haat, RTA 
计 pe 为 (rr)。 而 pe 的 取 值 则 难以 估计 。 然 而 ， 我 们 可 以 假设 它 的 值 相 对 pe 来 说 较 
小 ， 并 将 其 当做 0。 所 以 ， 词 项 选择 值 变 为 


Neer 





ne -wW (8-50) 


我 们 还 可 以 将 n, 从 分 母 中 删 去 ， 因 为 它 对 所 有 词 项 都 是 相同 的 ， 然 后 乘 以 一 个 常数 因子 ， 
这 仍然 是 保 序 的 ， 有 
tr * Wt (8-51) 
对 于 相关 反馈 ， 我 们 根据 公式 (8-51) 为 每 一 个 查询 词 项 排名 ， 选 择 前 m 个 ， 然 后 将 其 加 
人 初始 查询 ， 必 要 时 重新 计算 词 项 权重 。 
遗憾 的 是 ， 这 个 方法 在 选择 多 少 词 项 ， 即 m 的 取 值 方面 ， 没 有 给 我 们 任何 指导 。 已 知 
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的 是 ，m 二 10 这 个 值 在 TREC 文档 集 上 能 够 提供 合理 的 效果 提升 。 我 们 在 实验 中 使 用 这 个 
值 作为 默认 值 。Robertson 和 Walker (1999) 提出 了 一 个 为 词 项 选择 的 边缘 阐 值 作出 估计 的 
方法 ， 这 个 方法 基于 接受 一 个 噪声 词 项 的 概率 。 


8.6.2 HARE 


伪 相 关 反 馈 (PRF) ， 也 被 称 为 言 反馈 (blind feedback) ， 是 相关 反馈 的 一 种 变形 ， 其 
中 交互 步 又 被 忽略 了 。 这 里 不 需要 用 户 指出 相关 文档 ， 检 索 系 统 只 是 简单 地 假设 由 初始 查询 
返回 的 前 天 个 文档 都 是 相关 文档 。 可 知 的 是 ,8 一 20 的 值 能 够 在 TREC 文档 集 上 取得 合理 
的 检索 效果 提升 。 我 们 将 使 用 这 个 值 作为 实验 的 默认 值 。 余 下 的 过 程 流程 如 前 ， 从 这 些 文档 
中 选择 词 项 ， 将 这 些 词 项 加 入 原始 的 查询 ， 扩 展 后 的 查询 被 用 来 产生 最 后 的 检索 结果 。 

因为 PRE 依赖 于 正 反 馈 ， 使 用 它 可 能 会 严重 损害 检索 效果 ， 特 别 是 前 k 个 文档 中 只 有 
很 少 甚至 没有 真正 的 相关 文档 时 。 然 而 ， 当 使 用 多 个 查询 的 平均 结果 ， 例 如 平均 准确 度 和 相 
似 有 效 性 指标 来 作为 衡量 标准 时 ，PRF 通常 能 得 到 显著 的 有 效 性 提升 。 并 且 ， 它 是 一 个 完 
全 的 自动 过 程 ， 不 需要 打扰 用 户 ， 可 以 在 每 个 查询 中 被 隐 式 地 执行 。 

作为 一 个 例子 ， 让 我 们 回 到 TREC PEFR Claw”, “enforcement”, “dogs”) 的 
主题 426 (图 1-8). Æ TREC45 文档 集中 的 N=528 155 个 文档 上 采用 伪 相 关 反 馈 ， 其 结果 
如 表 8-1 Bran. RABAT k= n, =20 个 文档 是 相关 的 。 


表 8-1 应 用 在 TREC 主题 426 上 的 伪 相 关 反 馈 ， 权 重 调整 因子 y= 1/3 





查询 词 项 (t) Nt Ter 初始 的 we Titr We 调整 后 的 w 
dogs 2163 20 7.931 78 13.296 48 
law 49 792 19 3.406 98 6.965 09 
enforcement * 10635 19 5.634 07 9.307 67 
dog 3126 12 7.400 50 88.806 00 2.648 56 = 7.953 637 
sniffing 194 6 11.410 69 68.464 14 3.42793 = 10.294 07+ 
canine 150 5 11.781 78 58.908 90 3.44006 = 10.330 51y 
pooper 20 4 14.688 67 58.754 68 4.35952 = 13.091 64y 
officers 15 006 11 5.137 35 56.510 85 1.78900 = 5.372 39y 
metro 39 887 15 3.726 97 55.904 55 1.701 28 = 5.108 96y 
canines 34 4 13.923 14 55.692 56 4.06435 = 12.205 267 
police 30 589 13 4.109 88 53.428 44 1.62250 = 4.872 377 
animal 5304 8 6.637 74 53.101 92 2.02091 = 6.068 797 
narcotics 3989 7 7.048 79 49.341 53 2.06199 = 6.192 177 


表 中 的 前 3 行 给 出 了 3 个 原始 查询 的 词 项 统计 信息 。 因 为 这 些 词 项 出 现在 大 部 分 或 全 部 
的 前 20 个 文档 中 ， 反 馈 后 它们 对 应 的 调整 权重 几乎 变 为 了 两 倍 。 表 底部 的 几 行 给 出 了 前 10 
个 扩展 词 项 ， 根 据 公式 (8-51) 计算 出 的 词 项 选择 值 〈n:,:。 wi) 来 排序 。 表 的 最 后 一 列 
列 出 了 在 执行 扩展 查询 时 使 用 的 调整 后 的 w; 值 ， 其 中 y 一 1/3。 原 始 查询 的 precision@10 
为 0.300，MAP 值 为 0.043。 扩 展 后 的 查询 检索 效果 得 到 了 大 幅 提 升 ，precision@10 为 
0.500, MAP 值 为 0. 089, 

将 词 项 “pooper” 作 为 一 个 扩展 词 项 揭示 了 一 个 伪 相 关 反 馈 可 能 引发 的 问题 。 查 询 
《“law”,“enforcement”,，“dogs”》 可 能 与 关于 狗 的 执法 有 关 ， 但 同样 也 可 能 与 在 执法 中 使 用 
狗 有 关 。 尽 管 后 面 的 一 种 解读 在 对 应 话题 的 描写 与 叙述 中 已 有 明显 的 说 明 ， 但 信息 检索 系统 
对 这 些 信息 并 不 知情 。 在 第 一 种 解读 下 ， 词 项 “pooper” 是 一 个 很 好 的 扩展 词 项 ， 因 为 法 律 
常常 要 求 宠物 的 主人 使 用 长 柄 火 匀 (pooper scooper) 清理 他 们 宠物 狗 的 凑 便 。 
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因为 伪 相 关 反馈 可 以 得 到 显著 的 提高 ， 你 可 能 会 疑惑 为 什么 我 们 会 在 一 次 反馈 迭代 后 停 
止 下 来 。 你 ' 可 能 希望 更 多 的 选 代 次 数 会 带 来 更 多 的 提高 。 然而 ， 如 果 我 们 在 这 个 样 例 中 继续 
”执行 更 多 的 迭代 ， 将 得 到 下 面 的 扩展 词 项 序列 。 

选 代 扩 展 词 项 


dog, sniffing, canine, pooper, officers, metro, canines, police, animal, narcotics 














dog, canine, pooper, sniffing, leash, metro, canines, animal officers, narcotics 
dog, canine, pooper, sniffing, leash, metro, canines, animal, owners, pets 
dog, leash, animal metro, canine, pooper, sniffing, canines, owners, pets 
dog, leash, metro, canine, pooper, sniffing, canines, owners, animal, pets 


dog, leash, metro, pooper, canines, owners, pets, animals, canine, scooper 


N DB oO FF W N -A 


dog, leash, metro, pooper, canines, owners, pets, animals, canine, scooper 


在 7 次 迭代 后 ， 查 询 彻底 地 偏向 了 一 种 解读 。 再 多 的 和 迭代 也 不 会 产生 什么 变动 了 。 

在 这 个 例子 中 出 现 的 查询 偏 移 〈query drift) 展现 出 了 无 差别 的 伪 相 关 反 馈 的 主要 风 
险 。 即 使 是 一 次 迭代 有 时 候 也 会 严重 损害 检索 的 效果 。 大 多 数 商业 化 的 信息 检索 系统 可 能 是 
基于 这 个 原因 都 没有 加 入 伪 相关 反馈 。 通 常情 况 下 检索 有 效 性 的 提高 带 来 的 益处 并 不 能 掩盖 
因 一 次 失败 而 带 来 的 负面 用 户 体 验 。 并 且 ， 伪 相关 反馈 从 性 能 上 来 说 代价 也 比较 高 晶 ， 因 为 
它 要求 对 多 个 文档 进行 分 析 ， 并 需要 第 2 次 执行 查询 。 同 样 地 ， 潜 在 的 益处 并 不 能 掩盖 因 其 
增加 的 响应 时 间 。 


8.7 区域 权 重 : BM25F 


在 第 2 章 中 ， 与 如 词 频 和 词 项 邻近 度 等 排名 的 基本 特征 列表 一 起 ， 我 们 也 列 出 了 一 些 对 
排名 有 用 的 其 他 特征 ， 包 括 文档 结构 。 例 如 ， 出 现在 如 文档 标题 等 特定 的 区 域 中 的 词 项 ,与 
出 现在 文档 正文 中 的 词 项 相 比 ， 将 获得 更 多 的 权重 。 在 这 一 节 中 , 我 们 给 出 一 个 重要 的 
BM25 扩展 ， 它 将 文档 结构 考虑 在 内 ， 称 为 BM25F。 

在 Web 搜索 中 利用 文档 结构 特别 重要 。 图 8-1 给 出 了 一 些 Web 搜索 引擎 上 可 用 的 丰富 
结构 信息 。 此 图 是 一 个 大 幅 简化 的 Web 页 面 ， 地 址 为 en. wikipedia. org/wiki/Shakespeare, 
REAT 2007 年 中 期 的 英文 版 Wikipedia 网 站 。 

HTML 页 面 被 分 为 两 部 分 : A) Æ Cheader) 部 分 ， 以 标签 <head> … </head> R 
定 ， 包 括 一 个 标题 与 其 他 描述 文档 的 元 数据 (metadata); (2) 正文 (body) 部 分 ， 包 含 了 
供 显示 的 文章 内 容 。 元 数据 包含 了 与 Shakespeare 相关 的 重要 日 期 信息 ， 也 包含 了 Wikipe- 
dia 组 织 相关 的 注解 。 例 如 ， 关 键 字 “Persondata” 指 这 个 页 面包 含 了 一 个 传记 信息 的 标准 
表格 。 文 档 的 正文 包括 了 以 标签 《hl1》 作 标记 的 节 标 题 ， 也 包含 了 以 标签 《by 作 标 记 的 黑 
体 字 。 

正文 还 包含 了 指向 Wikipedia 中 “poet” 与 “playwright” 页 面 的 超 文 本 链接 。 在 这 些 
链接 的 开始 标签 <a> BERENS </a> 之 间 的 锚 文 字 (anchor text) 可 以 被 解读 为 关于 被 
指向 页 面 的 内 容 信息 。 在 这 个 例子 中 ， 锚 文字 简单 地 重复 了 这 些 页 面 的 标题 。 锚 文字 是 
Web 搜索 中 重要 的 特征 ， 我 们 将 在 第 15 章 继续 讨论 。 

虽然 HTML 在 结构 方面 特别 丰富 ， 但 对 于 许多 文档 来 说 ， 其 中 的 区 域 却 是 类 似 的 。 例 
如 ， 电 子 邮 件 信 息 中 的 “Subject”、“To” 和 “From” 区 域 可 以 被 利用 于 类 似 的 目的 中 。 
BM25F 的 目的 是 恰当 地 反映 出 这 些 结构 暗示 的 重要 信息 。 
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<html> 
<head> 
<title>William Shakespeare - Wikipedia, the free encyclopedia</title> 
<neta 
nane="keywords" 
content="William Shakespeare ,Persondata,Sister projects, Earlybard, 
1582,1583,1585,1616"/> 
</head> 
<body> 
<hi>William Shakespeare</h1> 
<b>William Shakespeare</b> (baptised 26 April 1564 - died 23 April 1616) 
was an English <a href="http: //en.wikipedia.org/wiki/Poet">poet</a> and 
<a href="http://em.wikipedia.org/wiki/Playwright"> playwright</a>. 
He is widely regarded as the greatest writer of the English language 
and the world's pre-eminent dramatist. He wrote approximately 38 plays 
and 154 sonnets, as well as a variety of other poems... 
</body> 
</html> 








图 8-1 显示 Web 典型 结构 的 简单 HTML 页 面 


BM25F 背后 的 直 党 与 公式 (45 中 文档 长 度 归 一 化 背后 的 直觉 相似 。 这 个 公式 指定 
了 一 个 文档 长 度 归 一 化 调整 后 的 词 频 ， 用 于 蔡 代 检索 公式 中 的 实际 词 频 。 我 们 将 这 个 想法 扩 
展 到 区 域 权 重 中 ， 在 包含 了 某 个 词 项 的 区 域 中 计算 调整 后 的 词 频 。 例 如 ， 我 们 认为 一 个 查询 
词 项 在 标题 中 出 现 1 次 等 同 于 它 在 文档 里 出 现 10 次 ， 从 而 相应 地 扩展 词 频 。 

为 了 规范 化 这 个 概念 ， 我 们 将 fi.a., 定 义 为 词 项 t 在 文档 d 区 域 s 中 的 出 现 次 数 。 接 着 
使 用 类 似 于 BM25 归 一 化 的 方法 在 区 域 的 层次 上 应 用 面向 区 域 的 文档 长 度 归 一 化 ， 从 而 反 
映 出 不 同 区 域 类 型 之 间 平均 长 度 的 区 别 。 例 如 ， 一 个 文档 的 标题 与 正文 相 比 ， 常 常 要 短 
小 得 多 。 

/ da 

fae = Goi Ta) (8-52) 
RE, la BM d 中 区 域 s 的 长 度 ，!。 是 所 有 文档 中 区 域 s 的 平均 长 度 ，b。 是 一 个 与 
BM25 中 b 参数 类 似 的 区 域 参 数 。 如 同 b 参数 一 样 ，b。 参数 的 值 在 0 一 1 之 间 ， 从 而 产生 相 
应 的 完全 无 归 一 化 公式 与 完全 归 一 化 公式 。 
这 些 面向 区 域 调整 的 词 频 ， 称 为 伪 频 率 pseudo_frequency) ， 然 后 与 面向 文档 调整 的 词 频 合 
并 为 一 个 : 


jd 一 > os f'ras (8-53) 
3 


Hh, v, 是 区 域 s 的 权重 。 例 如 ， 我 们 可 以 定义 vaae 一 10 B Vol. 
我 们 可 以 用 这 个 调整 后 的 词 频 来 苦 代 公式 (8-44) 中 的 实际 词 频 ， 得 到 BM25F 的 公式 ， 
f' sa ki +1) 
Lei ist fia 
因为 文档 长 度 的 归 一 化 被 应 用 于 调整 后 词 频 的 计算 ， 这 个 公式 并 不 需要 显 式 地 归 一 化 。 我 们 
继续 在 文档 层次 上 计算 Robertson/Sparck Jones 权重 w,. BM25F 要 求 我 们 对 每 个 区 域 的 两 
个 参数 b, Hu, 进行 调整 ， 如 同调 整整 体 参数 ki 一 样 。 


(8-54) 
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BM25F 的 实现 要 求 文档 包含 合适 的 标签 ， 并 要 求 词 频 计 算是 针对 每 一 个 区 域 的 。 第 5 
章 介绍 的 轻 量 级 结构 设计 的 查询 过 程 技术 可 以 对 它 的 实现 有 所 帮助 。 


8.8 实验 对 比 


表 8-2 以 图 表 的 形式 给 出 了 概率 模型 中 每 一 次 主要 创新 所 带 来 的 进步 ， 实 验 的 数据 来 自 
1.4 节 中 所 述 的 测试 文档 集 。 这 个 表 中 的 结果 可 以 直接 与 表 2-5 中 的 结果 对 比 。BM25 对 应 
的 行 在 两 个 表 中 均 有 出 现 。 


表 8-2 本章 讨论 的 几 个 检索 方法 的 有 效 性 指标 


















公式 -22) 
公式 (8-24) 0.402 
BM25 0.424 
BM25 + PRF 
BM25F 











对 BM25， 实 验 使 用 参数 1 一 1.2 H 一 0.75。 使 用 公式 (8-30) 来 计算 w.. WHA 
关 反 馈 (PRE) 来 说 ， 我 们 取出 前 k= 20 个 文档 ， 并 将 其 中 前 m=10 个 词 项 加 入 到 查询 
中 ， 使 用 8. 6 节 中 描述 的 方法 在 Y==1/3 的 情况 下 重新 调整 原始 查询 词 项 与 新 加 和 人 查询 词 项 
的 权重 。 对 BM25F， 我 们 只 考虑 标题 及 正文 两 个 区 域 ， 所 有 没有 在 标题 中 出 现 的 词 项 都 被 
认为 出 现在 正文 中 。BM25F 的 实验 中 ， 参 数 设 置 分 别 为 kh, =1.2, Vie=ws wal, H 
Bite = Brody 一 0.75。 

正如 我 们 从 表 中 看 到 的 ， 由 于 引入 了 词 频 这 一 信息 ， 检 索 效 果 有 大 幅 提升 。 伪 相关 反馈 
的 效果 则 根据 文档 集 的 不 同 而 不 同 ， 将 precision@10 提高 了 3 锡 一 20 多 ， 将 MAP 提高 了 
13 狗 一 34 多 。 区 域 权重 (BM25F) 对 GOV2 主题 几乎 没有 什么 影响 。 在 第 15 章 中 ， 我 们 将 
这 些 检 索 方 法 应 用 在 一 个 面向 Web 检索 的 任务 上 ， 区 域 权 重 的 影响 将 会 更 加 明显 〈 参 见 
表 15-6). 


8.9 延伸 阅读 


最 早 的 针对 信息 检索 的 概率 模型 可 能 是 由 Maron 和 Kuhns (1960) 提出 的 。Fuhr 
(1992) 提供 了 一 个 针对 Maron/Kuhns 模型 与 Robertson/Spirck Jones 概率 模型 的 比较 。 建 
立 在 概率 模型 之 上 的 推理 网 络 模型 提供 了 丰富 的 概率 操作 集合 《Turtle 和 Croft, 1991; 
Greiff 等 人 ，1999) Lafferty 和 Zhai (2003) 从 本 质 的 层次 探索 了 概率 模型 与 我 们 下 一 章 
即将 介绍 的 语言 模型 之 间 的 关系 。 我 们 在 相关 方法 上 的 解释 基于 他 们 在 文献 中 的 分 析 。 
Roelleke 和 Wang (2006) 拓展 了 这 个 分 析 ， 并 细致 地 描述 了 两 个 模型 中 基本 元 素 的 对 应 
关系 。 

Robertson/Sparck Jones 概率 模型 的 发 展 可 以 从 一 系列 文献 中 追 湖 。 其 中 最 值得 提 到 的 
是 Sparck Jones (1972), Robertson 和 Sparck Jones (1976), Robertson (1977), Croft 和 
Harper (1979), Robertson 和 Walker (1994), Robertson 等 人 (1994), Robertson 和 
Walker (1997), Sparck Jones 等 人 (2000a, b) 给 出 了 一 个 截至 1999 年 相关 发 展 的 总 结 。 
这 份 总 结 还 包含 了 大 量 关于 增强 与 拓展 相关 技术 的 讨论 。 
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Robertson (2004) 为 逆 文 档 频 率 背 后 的 理论 原理 以 及 它 与 概率 模型 之 间 的 关系 提供 了 
更 多 的 见解 。de Vries 和 Roelleke (2005〉 则 进一步 探索 了 这 个 关系 。 他 们 将 相关 信息 的 使 
FRA A ， 并 且 使 用 一 个 额外 的 “虚拟 文档 ”的 概念 为 公式 (8-26) 中 使 用 的 平滑 数 
0.5 给 出 了 一 个 有 趣 的 解释 。Church 和 Gale (1995) 将 IDF 建 模 为 泊 松 分 布 的 混合 ， 并 强 
调 文档 频率 与 文档 集 内 部 词 频 的 重要 区 别 。Roelleke 和 Wang (2008) 提供 了 一 个 关于 
TFIDF 理 论 基础 的 细致 回顾 ， 并 给 出 了 它 在 不 同 检索 模型 中 的 不 同 解读 。 

一 个 有 最早 的 基于 相关 反馈 的 查询 扩展 算法 由 Joseph J. Rocchio 在 SMART 系统 (详情 
参见 Rocchio (1971) 或 Baeza Yates 和 Ribeiro- Neto (1999)) 的 背景 下 发 明 。Ruthven 和 
Lalmas (2003) 提供 了 关于 交互 相关 反馈 与 伪 相 关 反馈 的 详细 综述 。Wang 等 人 (2008) it 
论 了 当 负 “不 相关 ) 例 可 用 时 的 相关 反馈 。 

TREC 中 很 多 小 组 在 1992 一 1998 年 的 实验 认定 伪 相关 反馈 是 一 个 提高 平均 查 准 率 的 可 
靠 技术 。 然 而 ， 伪 相关 反馈 在 实际 环境 下 的 益处 却 从 未 被 清晰 的 论证 。Lynam SA (2004) 
给 出 了 一 些 伪 相关 反馈 实现 的 比较 ， 其 中 的 实现 来 自 于 一 些 领 先 的 研究 小 组 在 2003 年 左右 
TREC 风格 实验 中 使 用 的 版 本 。 基 于 语言 模型 方法 ，Lee BA (2008) 将 聚 类 方法 应 用 于 选 
择 更 好 的 反馈 文档 。 同 样 基于 语言 模型 方法 ，Cao 等 人 “2008) 将 分 类 方法 应 用 于 为 反馈 文 
档 选 择 更 佳 的 扩展 词 项 。Collins-Thompson (2009) 给 出 了 一 个 能 够 最 小 化 伪 相关 反馈 中 查 
询 扩展 技术 所 带 来 的 风险 的 框架 。 

BM25F 背后 的 理论 首 见 于 Robertson 等 人 《〈2004) ， 远 在 BM25 被 认定 为 顶级 的 排名 公 
式 之 后 。 本 书 中 的 Okapi BM25F 形式 ， 在 由 剑桥 微软 实验 室 开 展 的 面向 TREC-13 (Zara- 
goza 等 人 ，2004) 和 TREC-14 (Craswell 等 人 ，2005b) 的 实验 中 作为 一 部 分 被 介绍 与 评 
价 。 其 他 BM25 的 拓展 包括 加 入 近似 度 的 提案 (Rasolofo 和 Savoy, 2003; Biittcher A, 
2006) ;加 入 查询 词 项 在 文档 中 位 置 的 提案 (Troy 和 Zhang, 2007); 以 及 将 锚 文字 和 其 
他 Web 相关 特征 考虑 在 内 的 提案 (Hawking 等 人 ，2004; Craswell 等 人 ，2005a) 。Ro- 
bertson 和 Zaragoza (2010) 给 出 了 一 个 体现 在 BM25F 中 的 ， 关 于 概率 检索 最 近 工作 的 综 
述 。 


8.10 练习 

练习 8. 1 证 明 logit(p)=—logit(l1—p), FL O< p<. 

练习 8.2 在 什么 情况 下 公式 (8-26) 会 给 出 一 个 负 值 ? 这 些 情况 在 现实 中 经 常 发 生 吗 ? 

练习 8. 3 ”请 在 公式 (8-13) 中 应 用 假设 Q 和 假设 工 ， 推 导出 公式 (8-32)。 

练习 8.4 我 们 对 于 BM25F 的 描述 隐 式 地 假设 区 域 s 在 一 个 文档 中 最 多 出 现 一 次 。 然 而 ， 一 个 文档 可 
能 有 多 个 章节 的 头 部 、 多 个 黑体 文字 部 分 以 及 多 个 类 似 的 结构 元 素 。 提 出 一 个 MB25F 的 扩展 来 处 理 同类 型 
区 域 多 次 出 现 的 情况 。 

练习 8.5 (项 目 练习 ) ”实现 BM25 排名 公式 (公式 (8-48))。 使 用 练习 2.13 中 的 测试 文档 集 或 如 
TREC 文档 集 这 样 的 文档 集 来 测试 你 的 实现 。 

练习 8. 6 〈 项 目 练习 ) ”实现 8. 6 节 中 描述 的 伪 相关 反馈 方法 中 的 词 项 选择 步骤 。 给 定 一 个 查询 9， 将 
其 在 任 一 文字 文档 集 上 执行 ， 使 用 任何 检索 方法 ， 返回 前 20 个 文档 。 使 用 公式 〈8-51) ， 在 这 些 文 档 中 取出 
前 10 个 词 项 。 用 以 下 的 查询 测试 你 的 实现 : 

(a) <“law”’, “enforcement”, “dogs”> 

(b) <“marine”, “vegetation”> 

(c) <“black”, “bear”, “attacks”> 


(d) <“journalist”, “risks” 
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(e) <“family”, “leave”, “law”> 
这 些 查询 从 TREC 2005 Robust 专题 取得， 它们 由 在 提高 检索 技术 在 其 表现 较 差 的 主题 上 的 一 致 性 。 
伪 相 关 反 馈 在 这 样 的 主题 上 有 不 利 的 影响 。 
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第 9 章 | 
Information Retrieval: Implementing and Evaluating Search Engines 
语言 模型 及 其 相关 方法 
本 章 从 不 同 于 第 8 章 中 的 概率 模型 的 角度 来 阐述 排名 问题 。 尽 管 有 各 自 不 同 的 理论 基 
础 ， 本 章 所 提 的 检索 方法 还 是 有 一 些 重要 的 共通 点 。 所 有 的 排名 方法 都 可 以 视 为 是 通过 语言 
模型 (language model) 的 某 种 形式 对 文档 进行 排名 的 过 程 ， 即 将 文档 中 词 项 的 实际 出 现 与 
根据 文档 集 和 文档 的 特征 预测 的 期 望 出 现 进 行 比 较 的 过 程 。 这 种 方法 与 概率 模型 的 不 同 之 处 
在 于 它们 不 太 关 注 相 关 性 ， 即 不 会 明确 地 考虑 这 个 因素 。 i 
尽管 在 更 广泛 的 意义 上 本 章 提 出 的 方法 可 视 为 是 语言 模型 方法 ， 但 9. 1 节 和 9.4 节 还 是 
主要 关注 狭义 的 “语言 模型 方法 ”的 基础 。 这 种 方法 一 一 基于 Berger、Croft、Hiemstra、 
Lafferty、Ponte、Zhai 等 人 的 工作 而 建立 起 来 一 一 特点 是 利用 文档 为 查询 建立 了 一 个 产生 式 
模型 (generative model) (Ponte 和 Croft, 1998; Hiemstra, 2001; Song 和 Croft, 1999; 
Miller A, 1999; Berger 和 Lafferty, 1999; Lafferty 和 Zhai, 2001; Zhai 和 Lafferty, 
2001，2004) 。 在 很 短 的 时 间 内 ， 大 概 从 1998~2001 年 ， 这 种 语言 模型 方法 就 从 Ponte 和 
Croft (1998) 在 SIGIR 上 发 表 的 一 篇 论文 开始 ， 发 展 成 为 当前 新 的 信息 检索 系统 的 主流 框 
架 (Croft 和 Lafferty，2003) 。 在 研究 文献 中 每 当 提 及 “语言 模型 方法 ”， 通 常 就 是 指 这 种 
狭义 的 语言 模型 方法 。 
9.1 节 将 以 概率 排名 原则 (Probability Ranking Principle, PRP) 作为 切 人 点 ， 去 推导 
和 证 明 产 生 式 查 询 模型 。 给 定 一 个 假设 相关 的 文档 ， 我 们 利用 该 文档 建立 一 个 语言 模型 去 佑 
计 pCqla)， 即 为 了 检索 出 文档 a 而 输入 查询 9 的 概率 ， 并 依 此 对 文档 进行 排名 。 在 第 1 章 
研究 词 频 时 介绍 了 语言 模型 的 思想 ， 并 在 第 6 章 介绍 数据 压缩 时 进一步 阐述 了 这 种 思想 。 本 
章 提 及 的 语言 模型 都 建立 在 第 1 章 介 绍 的 最 简单 的 模型 基础 上 一 一 只 使 用 基于 文档 和 文档 集 
的 统计 信息 的 零 阶 模型 。 
. 9.2 节 将 详细 讨论 从 文档 中 构建 一 个 语言 模型 的 细节 ， 主 要 关注 平滑 过 程 ， 即 给 未 出 现 
在 文档 中 的 词 项 赋予 一 个 非 零 的 概率 。 因 为 相关 文档 并 非 包 含 了 每 一 个 查询 词 项 ， 所 以 为 这 
些 词 项 赋予 正 的 概率 是 很 重要 的 。9. 3 节 将 平滑 语言 模型 应 用 到 排名 问题 中 ， 并 同时 结合 
9.1 节 和 9.2 节 的 结论 构造 出 具体 的 排名 公式 。9.4 节 考 虑 另外 一 种 基于 Kullback-Leibler 
距离 (Kullback-Leibler divergence, KL 距离 ) 理论 的 语言 模型 的 理论 基础 ， 这 是 一 种 判定 两 个 
概率 分 布 差异 性 的 方法 。 基 于 这 种 理论 基础 ， 在 语言 模型 方法 下 提出 了 一 种 查询 扩展 的 方法 。 
后 面 的 章节 就 语言 模型 给 出 更 广泛 的 解释 。9. 5 节 介绍 一 种 被 称 为 随机 差异 性 (diver- 
gence from randomness, DFR) 的 检索 方法 ， 该 方法 在 待 排名 文档 范围 内 ， 将 随机 分 布 词 项 
的 模型 与 这 些 词 项 的 实际 分 布 进行 对 比 。9. 6 节 介 绍 了 一 种 段落 检索 的 方法 ， 它 的 理论 基础 
与 DFR 和 其 他 语言 模型 方法 相关 。9. 7 节 给 出 了 本 章 和 前 几 章 提出 的 几 个 检索 方法 的 对 比 
评价 。9. 8 节 列 出 了 一 些 由 语言 模型 派生 或 与 语言 模型 相关 的 新 检索 方法 。 


9.1 从 文档 中 产生 查询 


正如 第 8 章 所 讲 的 那样 ， 我 们 从 讨论 概率 排名 原则 开始 。 由 公式 〈8-8) 有 


oz _P(rID.Q) _) v(r|D,Q) | 
EI-p(1D,0) E pe D,Q) (oD 
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= Joe PQl) p(n) i 
8 p(D, QI) pl) (9-2) 
在 公式 (8-10) 中 用 公式 p(D,Q|R)=p(D|Q,R) + 0(Q| RRA LAWKARS. 
本 节 中 则 相反 ， 用 公式 pC(D,Q|R) 二 pC(Q@|D ,RR) 来 展开 联合 概率 ， 得到: 


plr|D,Q) _ pe p(D,Q17) plr) 








log p(F|D, Q) = log PD, QIP pi) (9-3) 
Ms OID. RDI ee 
oe OIDE AF D) os) 
= log p(Q|D,r) — log p(Q|D, 7) + log ap (9-6) 
= log p(Q[D,r) — log p(Q | D, 7) + logit(p(r | D)) (9-7) 


接 下 来 将 详细 研究 最 后 一 条 公式 中 的 每 个 概率 。 

对 于 一 个 给 定 查询 9 和 一 个 相关 文档 ag，p(Q@ 二 gqg1D 二 dQ,7?) 的 值 表 示 用 户 为 了 检索 到 
d 而 输入 查询 gq HR, ARE, Ud 为 条 件 〈 即 以 d 为 条 件 来 考察 查询 g 一 一 译 者 注 ) 就 
为 我 们 提供 了 相关 文档 的 例子 。 从 这 个 例子 中 ,我们 可 以 估计 如 果 希 望 检索 到 类 似 于 d 这 
样 的 文档 ， 用 户 输入 q 的 概率 。 特 别 是 ， 如 果 词 项 出 现在 d 中 的 频率 远 远 大 于 随机 情况 时 ， 
我 们 就 会 认为 它 出 现在 查询 中 的 概率 也 较 高 。 

另 一 方面 ， 考 虑 d 在 公式 〈9-7) 中 的 概率 pb(Q= dj| 了 =d,7) 所 起 的 作用 。 这 里 以 
为 条 件 并 不 能 提供 给 我 们 很 多 关于 用 户 的 需求 方面 的 信息 。 我 们 只 有 不 相关 的 文档 例子 ， 只 
能 猜测 什么 是 相关 的 。 因 此 ， 假 设 这 个 概率 独立 于 d 是 合理 的 ， 也 就 是 p(Q=q|D=d. nz 
一 个 常数 。 如 果 我 们 接受 这 个 假设 ， 那 就 可 以 去 掉 这 个 常数 项 ， 因 此 得 到 一 个 等 价 的 排名 公式 

log p(Q | D, 7) + logit(p(r| D)) (9-8) 

第 二 个 概率 项 pCr | DALF q 并 且 对 所 有 查询 都 一 样 。 这 个 相关 性 的 先 验 概率 可 理解 为 文 
档 质 量 或 重要 性 的 指标 。 例 如 ， 在 Web 搜索 的 场景 中 ， 一 所 大 学 的 主页 应 比 一 个 该 校 学 生 
的 个 人 主页 获得 更 高 的 先 验 概率 值 ( 见 15. 3 节 ) 。 在 文件 系统 搜索 的 场景 中 ， 单 独 发 给 你 的 
邮件 也 应 比 群 发 邮件 获得 更 高 的 先 验 概 率 值 。 

尽管 如 此 ， 在 应 用 上 下 文 信息 不 完整 的 情况 下 ， 通 常 假设 相关 性 的 先 验 概率 pC(7|DD) 对 
所 有 文档 都 是 一 样 的 。 如 果 接 受 这 个 假设 ， 因 为 保 序 变换 ， 我 们 可 以 丢掉 这 个 常量 。 另 外 ， 
因为 寄 也 有 保 序 性 ， 所 以 可 以 去 掉 对 数 。 因 此 得 到 以 下 的 排名 公式 


p(Q|D,r) (9-9) 
上 式 的 相关 性 条 件 可 以 得 到 简化 ， 将 上 式 简化 为 
p(Q=9|D=d) (9-10) 


这 个 非常 简单 的 公式 对 于 语言 模型 所 起 的 作用 ， 与 第 8 章 中 公式 (8-13) 在 概率 检索 模型 中 
所 起 的 作用 是 一 样 的 。 给 定 一 个 文档 d 和 一 个 查询 9， 为 了 排名 ， 可 通过 估计 概率 peld) 


”对 a 进行 评分 。 


为 了 估计 这 个 概率 ， 文 档 被 认为 是 为 产生 查询 9 提供 了 一 个 模型 (model) 。 想 象 一 个 
用 户 正 构造 一 个 查询 去 检索 相关 文档 。 她 会 尝试 想 一 些 经 常 出 现在 这 些 相 关 文 档 中 ， 而 不 太 
出 现在 不 相关 文档 中 的 词 项 。 基 于 这 种 尝试 ， 用 户 就 会 在 心里 想象 相关 文档 看 起 来 是 什么 样 
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子 一 一 哪些 词 项 能 把 这 个 文档 与 文档 集中 的 其 他 文档 区 分 开 来 。 然 后 她 选择 一 些 词 项 并 输入 
到 搜索 引擎 中 。 这 些 词 项 就 成 了 查询 q。 

为 了 给 qd 评分 ， 我 们 假设 它 符合 用 户 的 想象 ， 同 时 估计 用 户 选用 查询 9 去 检索 它 的 概 
率 。 因 为 这 个 假设 把 用 户 的 信息 需求 一 一 在 她 心里 想象 的 一 一 与 文档 a 联系 起 来 了 ， 因 此 
可 以 视 d Ag 提供 了 一 个 产生 式 模型 (generative model), 

一 些 信息 检索 系统 的 研究 人 员 通 过 一 个 不 同 的 推理 过 程 更 直接 地 去 证 明 公式 (9-10). 
他 们 声明 只 关心 pC(Q,D)， 即 查询 和 文档 的 联合 分 布 ， 而 忽略 相关 性 的 问题 。 文 档 根据 以 
下 公式 排名 

P(Q, D) = p(Q|D) - p(D) 
或 等 价 于 

log p(Q1D) + log p(D) (9-11) 
与 处 理 公 式 (9-8) 中 第 二 项 的 方法 类 似 ， 可 以 把 logp (D) 理 解 为 文档 质量 或 其 重要 性 的 指 
标 ， 并 且 在 其 他 信息 缺失 的 情况 下 ， 把 它 看 做 一 个 常量 。 不 过 请 注意 公式 9-11) 的 第 二 项 
与 公式 (9-8) 的 第 二 项 之 间 的 差别 。 


9.2 语言 模型 和 平滑 

第 1 章 中 讨论 了 莎士比亚 文集 及 其 他 文档 集中 的 词 项 分 布 ， 并 引出 了 基本 的 语言 模型 方 
法 。 此 外 ， 在 第 6 章 文 本 压缩 中 ， 我 们 进一步 探讨 了 符号 集 上 的 有 限 上 下 文 模型 的 思想 。 为 了 
预测 ， 我 们 可 以 想象 从 左 到 右 阅 读 一 个 文档 中 的 未 知 文本 ， 用 语言 模型 去 猜 接 下 来 的 内 容 ， 并 
为 每 个 可 能 出 现 的 符号 赋予 一 个 概率 。 如 果 猜 得 很 准 ， 我 们 就 能 用 更 少 的 位 数 为 文档 编码 了 。 

为 了 检索 ， 我 们 的 目标 有 一 点 点 变化 。 我 们 必须 想象 我 们 已 经 有 一 个 相关 文档 的 例子 并 
且 提 出 问题 : 用 户 为 了 检索 出 类 似 这 个 文档 的 文档 ， 会 以 多 大 的 概率 输入 词 项 t? 

为 了 回答 这 个 问题 ， 我 们 用 文档 为 将 要 输 和 人 用 来 检索 该 文档 的 查询 创建 一 个 语言 模型 。 

”我 们 的 目标 是 从 文档 d 中 构建 出 一 个 文档 语言 模型 Ma《(t)。 最 简单 的 文档 语言 模型 是 基于 

统计 每 个 词 在 文档 中 出 现 次 数 的 最 大 似 然 模型 M3 (1): 


mpe = 4 (9-12) 


EXE, fe TRIS t 出 现在 d 中 的 次 数 ，1。 是 文档 的 长 度 。 因 此 ， 对 于 没有 出 现在 文 
档 中 的 词 项 Mi(t)=0。 因 为 M3 (1) 是 一 个 概率 ， 因 此 有 
E mpe) = SMa) =》 fra/la =la/la= 1 (9-13) 
tev ted ted 
举 个 例子 ， 词 项 “lord” 在 长 度 为 43 314 的 《Hamlet》 中 出 现 了 624 次 ， 但 在 长 度 为 26 807 
的 《Macbeth》 中 仅 出 现 了 78 次 。 因 此 ， 将 基于 《Hamlet》 的 语言 模型 和 基于 《Macbeth》 
的 语言 模型 进行 比较 ,前 者 对 “lord” 一 词 的 预测 概率 比 后 者 要 高 。 





` flora Hamlet 624 

Me! “l dq” 一 一 一 一 一 [a 1 441 
Hamlet ( or ) lyamlet 43 314 % 

Mr... (“lord”) = LlgrdMacben -78 a 0.291% 





i lMacbeth 26 807 
另 一 个 例子 ， 因 为 “lady” 在 《Hamlet》 中 出 现 了 30 次 而 在 《Macbeth》 中 出 现 了 196 次 ， 
所 以 前 者 对 “lady” 一 词 项 的 预测 概率 要 比 后 者 低 。 
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flaqy, Hamiet 30 
Me “lad oy y Ham 一 
Hamlet ( y ) lHanlet 43 314 


196 
Mn “J d 9) fiady, Macbeth 一 
Macbeth ( ady ) LMacbeth 26 807 


因为 M2 C(t) 仅仅 是 一 个 用 文档 长 度 度量 的 词 频 ， 因 此 它 并 不 足以 用 来 计算 估计 概率 
p (glq)， 从 而 提供 一 个 满意 的 文档 排名 。 尤 其 是 当 给 出 的 文档 d 只 是 相关 文档 中 的 一 个 例 
子 ， 而 且 可 能 仅 包含 数 百 个 词 项 时 ， 这 个 估计 有 可 能 就 不 是 非常 准确 了 。 更 糟 的 是 ， 这 个 模型 
将 未 出 现在 文档 中 的 所 有 词 项 的 概率 值 都 研 为 0， 这 意味 着 这 些 词 项 都 不 可 能 出 现在 查询 中 。 

在 信息 检索 和 例如 语音 识别 等 其 他 领域 中 ， 为 了 解决 在 使 用 基于 长 度 相 近 的 文档 或 者 样 
例 的 语言 模型 时 所 产生 的 问题 ， 一 种 很 常见 的 方法 就 是 使 用 背 最 语言 模型 (background lan- 
guage model) 去 平滑 (smooth) 这 些 模型 ， 希 望 由 此 提高 准确 率 。 在 信息 检索 中 ， 将 文档 
集 视 为 一 个 整体 ， 为 这 种 背景 模型 提供 了 一 个 简便 的 基础 。 

基于 将 文档 集 视 为 一 个 整体 来 计算 的 词 频 ， 定 义 4fc (站 为 最 大 似 然 语言 模型 

Mel(t)= l/le (9-14) 

ASH, 1, 是 词 项 t 在 文档 集 C 中 出 现 的 次 数 ，lc 是 文档 集中 词 条 的 总 数 。 


hora 3346 
Me(“lord”) =: “1284 = 3848 _ 
c(“lord”)= |" =Ta71 504 


haay 1031 
le 1271 504 
与 第 1 章 不 同 ， 在 这 个 例子 中 lc 包括 所 有 的 词 条 、 标 签 和 单词 。 
现在 看 看 两 个 著名 的 平滑 方法 。 第 一 个 是 Jelinek-Mercer 平滑 《Jelinek-Mercer smoot- 
hing) (Jelinek #1 Mercer, 1980; Chen 和 Goodman，1998) ， 它 是 文档 语言 模型 和 集合 语言 
模型 的 一 个 简单 的 线性 组 合 ， 
MZA =A- A) MIH HA Ac (9-15) 
其 中 ， 和 是 一 个 介 于 0 一 1 间 的 参数 ， 用 于 控制 文档 语言 模型 和 集合 语言 模型 的 相对 权重 。 
例如 ， 当 一 0. 5 时 ， 
Màu (“lord”) = (1d) MBL aug (“lord”) + A Me (“lord”) 
3346 
1 271 504 


= 0.069% 





= 0.731% 





0.263% 





Me(“lady”) = ~ 0.081% 


= 0.5 


因为 Adi ( 蕊 是 一 个 概率 ， 因 此 有 
DN MFO + A+ Me(t)= (1-2): YD MP +A- >》 Me(t) =1 (9-16) 
tev tev tev 
第 二 个 平滑 方法 假定 为 文档 集中 的 每 一 个 文档 都 额外 加 入 了 po 个 词 条 ， 同 时 根据 集 
合 文 档 语 言 模 型 Mc(t) 分 布 这 些 词 条 。 例 如 ， 当 y= 二 1000 时 ， 概 念 上 向 每 个 文档 中 添加 Aw。 
Mc (Clord”) =2. 6315 个 词 项 “lord”。 显 然 ， 现 实 中 不 可 能 向 文档 中 添加 小 数 个 词 项 ， 但 是 
在 数学 上 这 是 可 行 的 。 基 于 这 些 新 文档 的 最 大 似 然 语言 模型 为 
td 十 LAfc 人 E 
M(t) =f peel 
其 中 ，fi,a 是 词 项 t 在 原文 档 中 出 现 的 次 数 ，ls 是 原文 档 的 长 度 。 额 外 加 入 的 词 项 所 产生 的 
影响 依赖 于 文档 的 长 度 。 文 档 越 长 ， 影 响 越 小 ， 当 文档 无 限 长 的 时 候 ， 它 的 值 就 接近 于 
Ma(t)。 这 种 平滑 方法 称 为 Dirichlet 平滑 (Dirichlet smoothing) (Chen 和 Goodman, 


十 0.5 ~ 0.277% 


„8 
26 807 
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1998) ， 因 为 可 由 带 适 当 参 数 的 Dirichlet 分 布 衍生 而 来 的 。 
如 果 词 项 没有 出 现在 文档 d H, WA MA(t)=A - Melt) FEM H= Q Ada H) e 
Met). 


这 两 种 平滑 模型 中 都 赋予 了 一 个 文档 集 概率 的 常数 因子 ， 而 赋予 未 出 现在 文档 中 的 词 项 
的 相对 概率 都 是 一 样 的 。 
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给 定 d 为 相关 文档 的 一 个 例子 ， 公 式 (9-10) 表明 我 们 是 根据 用 户 输入 q 作为 查询 的 
概率 来 对 文档 进行 排名 的 。 现 在 准备 应 用 9. 2 节 的 平滑 语言 模型 估计 这 个 概率 。 首 先 ， 利 用 
类 似 于 8. 2 节 对 查询 Q 所 作 的 独立 性 假设 ， 可 以 把 问题 简化 为 估计 查询 中 每 个 词 项 的 概率 。 
给 定 一 个 查询 向 量 9 一 《t,t ,…,t%) 和 一 个 文档 Q， 可 以 估计 概率 pq | dW 


plald)=p(lal = n): [petila) (9-17) 


EP, pi q=ORMRAPRAKEA n 的 查询 的 概率 。 为 了 估计 用 户 输入 查询 q 的 概 
率 ， 我 们 必须 为 查询 长 度 估计 这 个 概率 一 一 假设 这 个 长 度 独立 于 文档 和 查询 词 项 以 及 每 个 独 
立 的 词 项 的 概率 一 一 假设 选择 一 个 词 项 独立 于 选择 其 他 词 项 。 
幸好 ， 忽 略 查询 长 度 是 一 种 安全 的 做 法 。 因 为 查询 是 固定 的 ， 只 考虑 用 户 输入 9 的 长 
EAn 的 概率 就 足够 了 ， 不 需要 考虑 输入 为 任意 查询 长 度 的 概率 。 在 9. 4 节 将 主要 讨论 在 语 
言 模 型 方法 下 的 查询 扩展 ， 那 里 才 需 要 估计 查询 长 度 。 现 在 ， 估 计 概 率 DC919) 为 
zelg=TTz (tild) (9-18) 


i=1 
因为 词 项 在 查询 向 量 中 出 现 的 顺序 在 该 公式 中 并 没有 意义 ， 所 以 可 以 把 9 看 做 一 个 查 
询 词 项 集合 ， 并 直接 在 公式 中 使 用 查询 词 项 的 词 频 : 


p(q\d)=] [pla (9-19) 
可 用 文档 语言 模型 为 每 个 p(t|1d) 估 计 一 个 概率 值 ， 因 此 ， 根 据 以 下 公式 排名 文档 : 
p(q|d) =] | Mat)" (9-20) 


teq 
HR, MDT UÆMi C), Mi (t 切 或 者 其 他 文档 语言 模型 。 如 果 用 人 人 (世代 换 Ae(Ct)， 
则 有 


plald) =] ] —N: MEE) + A- Melt)” (9-21) 
teg 
WR AM a RRM C, WA 
_ fra + u Melt) \* 
rala =]] (Sepet ) (9-22) 


讨论 到 此 为 止 ， 我 们 可 使 用 公式 〈9-21) 或 公式 (9-22) 进行 文档 排名 。 然 而， 为 了 对 
语言 模型 方法 及 它 与 其 他 方法 的 关系 获得 一 些 深入 的 了 解 ， 接 下 来 几 页 还 将 继续 做 一 些 值得 
的 扩展 讨论 。 你 也 许 注意 到 ， 很 多 在 第 2 章 和 第 8 章 看 到 的 排名 公式 中 的 特性 在 这 些 公式 中 
都 没有 出 现 。 与 前 面 的 公式 不 同 ， 这 些 公式 并 没有 采用 TF-IDF 形式 。 并 且 ， 文 档 集中 文档 
的 数量 ON) 和 包含 词 项 的 文档 数量 (Ni) 也 没有 出 现在 这 些 公式 中 。 尽 管 如 此 ， 在 简化 
这 些 公式 的 过 程 中 ， 很 容易 找 出 隐藏 在 这 些 公式 中 的 类 似 于 TF-IDF 的 形式 。 
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为 了 简单 ， 同 时 也 为 与 前 面 的 方法 保持 一 致 ， 从 现在 开始 我 们 使 用 对 数 而 不 是 直接 使 用 
概率 。 首 先 ， 分别 考虑 文档 中 包含 的 词 项 和 文档 中 不 包含 的 词 项 。 


log p(qld) = >》 at - log p(t|d) 
teq 


(9-23) 
= J` a: log p(t|d) + J, a - log p(tld) (9-24) 
teqnd teq\d 
当 文 档 中 包含 词 项 上 时， 我们 使 用 Ms ( 妇 去 估计 概率 pCt1d)， 其 中 Ma(t) 可 以 是 M(t 或 
者 MsCt)。 当 文档 中 不 包含 词 项 t 时，Ma (t+) 可 以 使 用 aa Me (t) 这 种 形式 ， 其 中 os 是 一 
个 与 a 的 特性 有 关 的 因子 (而 与 查询 q 无 关 )。 正 如 9. 2 节 最 后 所 讲 的 那样 ， 对 于 一 和 有 
MÀ), HF aa=p/CatwAMa Ct), 
我 们 将 Ma l(t) 和 aa，AMe Ct) 代入 公式 (9-24) 中 ， 并 稍 作 变型 ， 消 去 未 出 现在 文档 中 
的 词 项 的 累加 和 : 
log p(q|d) = Y q- log Mat) + YO ge -log(aa Me(t)) 





(9-25) 
tegnd teq\d 
= D gt - log Malt) 一 > qi- log(aa - Me(t)) (9-26) 
teqnd teqnd 
+ So g- log(aa:Me(t)) + >, a log(aa- Melt) (9-27) 
teqnd teq\d . 
= Sia: ES are ite log(aa : Me(t)) (9-28) 
teqnd 





Ma 
= 5 qi : log = in log ad 十 》 gt. log Me(t) (9-29) 


teqnd tEq 
这 里 9 n=) tea 4 表示 查询 中 词 条 的 个 数 。 最 后 一 项 9 ted qt’ log Mc(t) 多 对 于 所 有 文档 来 
说 都 是 一 个 常量 ， 可 以 去 掉 该 项 从 而 得 到 等 价 公式 : 


D qi - log Malt) +n- log ag (9-30) 
teqnd Qa Mc(t) g 


该 公式 由 两 部 分 组 成 。 与 前 面 章节 中 提 到 的 排名 公式 相似 ， 左 边 部 分 是 出 现在 文档 中 的 查询 
词 项 的 权重 和 。 右 边 部 分 可 看 做 是 对 特定 文档 的 调整 或 归 一 化 ， 该 部 分 独立 于 特定 的 查询 词 
项 ， 但 并 不 独立 于 查询 或 者 文档 的 长 度 。 

现在 分 别 用 这 两 种 不 同 的 平滑 语言 模型 ，M3(tj 和 M4(t)， 替 换 公式 (9-30) 中 的 
Mat), RAMA(t) 


ml 
D qt: log = Mal +n- log aa = D qe’ log AMPH FAMA | tog A 








tegnd Melt) tegnd AMe(t) 
— . (1 — A) ft,a/la + AL /Ic . 
-2 log Xe +n-log A 
Ep, n log 是 一 个 常数 ， 可 以 去 掉 。 做 一 个 小 小 的 变换 后 可 得 到 最 终 的 排名 公式 ; 
入 l 
2% bo (+i. 4s.) (9-31) 


在 本 书 的 后 面 章节 中 ， 我 们 将 此 公式 称 为 Jelinek-Mercer 平滑 语言 模型 Clanguage mod- 
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eling with Jelinek-Mercer smoothing，LMUJM) 。 通 常 ， 和 的 最 优 信和 与 查询 长 度 有 关 ， 其 值 越 
大 ， 越 适合 用 于 长 查询 。 在 缺少 训练 数据 或 其 他 信息 的 情况 下 ， 经 验 值 和 一 0. 5 是 比较 合理 
的 。 如 非特 别 说 明 ， 本 书 的 例子 和 实验 都 取 和 一 0. 5。 

回 到 表 2-1， 考 虑 其 中 的 文档 集 。 给 定 查询 “quarrel”，“sir”>， 可 以 计算 文档 1 的 
LMJM 得 分 如 下 : 


1A .jauarrell , le =) ( 1d. Liew. Je) 
log (a + 入 l lquarrel + log 1+ a 


= log (1+ 2-4-3) +log (1+ 83-4-3) œ 3.43 

在 开始 前 ， 有 必要 先 简单 研究 一 下 公式 (9-31) 的 结构 。 基 于 文档 集 的 统计 信息 ， 如 N 
和 Ji ， 并 未 出 现在 公式 中 。 然 而 ， 出 现在 对 数 中 的 文档 集 语 言 模型 lolli, PARES 
IDF, C5 fi. ,形式 相近 ， 也 使 人 联想 到 TF - IDF， 因 此 第 2 章 和 第 8 章 中 的 公式 的 一 些 性 
质 也 在 这 里 体现 出 来 了 。 

文档 的 长 度 扮演 了 一 个 十 分 有 趣 的 角色 。fi,a1 ls 是 指 每 个 文档 词 条 中 词 项 t 出 现 的 平 
均 次 数 。 当 与 loll 相 冬 后 ， 其 结果 解释 为 每 词 条 中 词 项 实际 出 现 的 次 数 与 文档 集 语言 模型 
中 期 望 出 现 次 数 之 比 。 

接 下 来 ， 我 们 考虑 Dirichlet 平滑 。 用 人 fa 区 代替 公式 (9-30) PRM), HE p> 
时 ， 简 化 排名 公式 ， 有 


A(t l l 
2 -log +n-log a=), qt -log ( + fa ， £)- n- log (1 + z) (9-32) 
我 们 将 其 称 为 Dirichlet 平滑 语言 模型 (language modeling with Dirichlet smoothing, 
LMD) 。 在 这 个 公式 中 ， 文 档 长 度 规范 化 分 解 为 公式 的 右边 。 与 公式 (9-31) 一 样 ， 你 会 发 
现在 词 频 和 集合 语言 模型 中 的 关系 与 TF-IDF 形式 相近 。 如 非特 别 说 明 ， 本 书 的 例子 和 实验 
用 到 该 公式 时 ， 取 /一 1000。 但 是 需要 强调 一 点 ， 在 实际 应 用 中 的 值 应 根据 相应 的 训练 数据 
得 出 〈 见 第 11 BE). 

如 果 文 档 集 中 的 所 有 文档 长 度 相同 ， 通 过 令 p=1a .ix 可 使 这 两 种 平滑 方法 等 价 。 观 察 
发 现 ， 基 于 一 个 已 有 的 值 1， 通 过 用 平均 文档 长 度 je 代替 1a， 可 为 上 选择 一 个 合适 的 值 。 
如 果 把 0. 5 作为 的 默认 值 ， 对 应 wx 的 默认 值 就 是 平均 文档 长 度 。 用 lac RAK (9-32) 
中 的 w H /se 一 1c/N， 那 么 LMD 排名 公式 化 简 为 : 


N l 
X a: log (1+ fea’ F) -nog (+ < ) (9-33) 


teq avg 





公式 中 出 现 的 N 加 强 了 该 公式 与 之 前 提 到 的 IDF 的 关系 。 公 式 中 同样 也 隐 含 着 在 Oka- 
pi BM25 中 出 现 的 文档 长 度 规范 化 。 

对 于 查询 “quarrel”, “sir”, (FH LMD 对 表 2-1 中 的 文档 集 进行 排名 ， 可 计算 出 文档 
1 的 得 分 为 ; 


log (1+ enoa * Æ) + log (1+ fi 起) —n- log (1+ 4) 


lguarrel lavg 


= log (1 +1- $) +log(1+1.#)-2-log(1 +) ~ 1.25 


9.4 Kullback-Leibler 距离 
另 一 种 用 于 理解 和 使 用 语言 模型 方法 的 理论 框架 是 Kullback-Leibler 距离 (Kullback- 
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Leibler Divergence, KL BERR). KLER, tR @RAARTHY (relative entropy)， 是 一 种 比较 两 
个 概率 分 布 的 方法 。 
给 定 连 续 概率 分 布 f(x) 和 g(x)， 它 们 之 间 的 KL 距离 定义 为 


| f(a) + log Aa dz (9-34) 
信息 检索 中 通常 使 用 离散 分 布 ， 这 时 KL 距离 的 形式 为 
LF (@) “log Aa) 1 (9-35) 


其 值 越 大 表示 差异 越 大 。 当 了 和 9 代表 相同 分 布 时 ， 它 们 的 KL EBA O, AW 
log (f(x)/g(z))=log 1=0, 

举 个 例子 ， 抛 一 枚 “公平 ”的 硬币 ， 出 现 正面 和 反面 的 概率 是 相等 的 。 如 果 抛 一 枚 “不 公 
平 ” 的 硬币 ， 出 现 正面 概率 为 40% 、 反 面 概率 为 60% ， 那 么 两 枚 硬币 的 KL 距离 可 如 下 计算 


0.5 0.5 
0.5 - log 04 + 0.5 - log 06 =œ 0.02945 


因为 对 数 的 底 是 可 以 是 任意 的 ， 所 以 在 这 个 例子 中 ， 我 们 选 2 作为 对 数 的 底 。 
KL 距离 是 不 对 称 的 ， 互 换 f(x) 和 gCx) 的 位 置 将 产生 不 同 的 值 。 例 如 ， 我 们 互 换 “ 公 
平 ” 和 “不 公平 ”两 枚 硬币 KL 距离 就 变 为 
0.4 - log = + 0.6 - log = = 0.02905 
由 于 KL 距离 的 不 对 称 性 ， 有 时 用 它 来 比较 一 个 “真实 ”分 布 与 男 一 个 分 布 ， 例 如 公式 
(9-35) 中 的 f(w) 就 表示 这 种 真实 的 分 布 。 从 信息 理论 的 角度 来 看 ， 假 设 一 个 消息 中 的 符号 
服从 g 分 布 而 不 是 真实 分 布 7:，KL 距离 就 表示 传输 或 压缩 这 个 消息 时 ， 每 个 符号 平均 需要 
额外 增加 的 位 数 。 
为 了 能 将 KL 距离 用 于 排名 ， 我 们 使 用 从 文档 中 构造 出 语言 模型 一 样 的 方法 ， 从 查询 
Ma (4) 中 构造 出 语言 模型 。 最 简单 的 语言 模型 是 最 大 似 然 模 型 ， 词 项 t 在 查询 中 出 现 的 次 
数 与 查询 长 度 的 比 : 
Ad (一 元 2 (9-36) 
正如 为 文档 语言 模型 所 做 的 那样 ， 当 然 可 以 通过 平滑 或 其 他 处 理 来 构造 更 加 复杂 的 查询 
语言 模型 。 
通过 计算 查询 语言 模型 和 文档 语言 模型 的 差异 ， 可 将 KL 距离 应 用 于 文档 排名 ， 
dM (t) - log oe} ae = 2 Me (t) -log Ne 的 一 >》 Malt) - log Malt) (9-37) 
tev 
左边 的 累加 项 对 所 有 文档 来 说 是 相同 的 ， 因 为 保 序 变换 ， 可 以 将 其 去 掉 。 右 边 的 累加 项 ， 如 
果 去 掉 负 号 ， 那 它 将 随 着 距离 减少 而 增 大 。 因 此 ， 它 适合 作为 一 个 排名 公式 ， 


>》 Malt) log Malt) (9-38) 
tey 
现在 ， 我 们 用 最 大 似 然 语 E D Ct), AREK 
J Mr (e) -log Mult 5 De log Ma(t) (9-39) 


tEV 


去 掉 常 量 二 可 以 得 到 等 价 的 排名 公式 
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Dg -log Malt) 


té€q 

这 与 公式 (9-20) 是 完全 等 价 的 〈 在 对 数 空间 里 ) 。 

如 果 在 公式 (9-38) 中 不 为 Ma( 纪 使 用 最 大 似 然 模型 ， 而 是 把 查询 语言 模型 作为 一 种 查 
询 扩展 ， 将 查询 语言 模型 扩展 ， 用 于 估计 未 出 现在 原 查询 中 的 词 项 的 非 零 概率 。 通 过 这 种 方 
式 ， 可 为 未 包含 任何 查询 词 项 的 文档 赋予 一 个 正 的 得 分 。 例 如 ， 给 定 图 1-8 的 查询 law”, 
“enforcement”,，“dogs”) ， 一 个 讨论 使 用 警犬 (canine) 或 警犬 搜索 队 (K-9) 来 搜查 毒品 的 
文档 肯定 是 相关 的 。 因 此 ， 通 过 向 查询 中 增加 词 项 “police”、“canine”、“K-9”、“drug” 和 
“searches”， 并 赋予 这 些 扩展 词 项 适当 的 权重 反映 它们 辅助 查询 的 作用 ， 可 以 提高 查询 的 性 
能 。 语 言 模型 M(t) 架 起 了 原始 查询 词 项 与 潜在 扩展 词 项 之 间 的 桥梁 ， 因 此 为 它们 的 识别 
和 加 权 提 供 了 一 条 理论 上 可 行 的 途径 。 

Lafferty 和 Zhai (2001) 提出 了 一 种 扩展 查询 的 语言 模型 方法 ， 该 方法 从 包含 一 个 查询 
词 项 的 某 个 文档 出 发 ， 在 文档 集中 随机 “ 游 走 ”。 游 走 的 第 一 步 随 机 选择 一 个 包含 一 个 查询 
词 项 的 文档 ， 被 选中 的 概率 可 以 用 词 频 和 其 他 的 因素 来 衡量 。 然 后 从 新 文档 中 根据 Ma Ct) 
随机 选 出 一 个 词 项 。 到 这 里 ， 游 走 将 以 概率 p.m 停止， 以 概率 1 一 psoo 继 续 。 如 果 继 续 ， 那 
又 随机 选择 一 个 包含 新 词 项 的 文档 ， 从 该 文档 中 又 随机 选 一 个 词 项 ， 不 停 地 重复 上 述 过 程 。 
基于 游 走 过 程 中 停 在 词 项 t 上 的 概率 ， 可 构造 出 查询 语言 模型 My (2). 

Lafferty 和 Zhai 为 这 个 非 正式 的 想法 介绍 了 一 个 形式 化 矩阵 的 实现 方法 ， 有 效 地 使 得 
可 同时 在 所 有 的 词 项 上 游 走 。 为 了 提高 效率 ， 游 走 几 步 后 将 停止 ， 以 避免 给 大 量 的 词 项 都 赋 
予 一 个 很 小 的 概率 。 他 们 的 报告 指出 ， 在 几 个 文档 集 上 tk， 包括 TREC45， 该 方法 的 有 效 性 都 
得 到 了 明显 的 提升 。 


9.5 ”随机 差异 性 


信息 检索 中 的 随机 差异 性 (divergence from randomness, DFR) 方法 明确 假设 词 项 在 
文档 集中 的 分 布 是 一 个 随机 过 程 ， 然 后 根据 文档 中 实际 词 项 分 布 概率 对 文档 进行 排名 。 类 似 
的 做 法 也 隐 含 在 语言 模型 方法 中 ， 即 把 集合 语言 模型 结合 到 平滑 处 理 中 去 。 例 如 ， 我 们 注意 
到 在 公式 (9-31) 中 包含 了 一 个 比率 ， 即 词 项 在 文档 出 现 的 实际 次 数 与 基于 集合 语言 模型 计 
算 的 期 望 出 现 次 数 的 比 。 

DFR 的 一 个 重要 性 质 是 它 没有 其 他 方法 中 的 那些 任意 参数 ， 这 些 参 数 需 要 训练 集 来 确 
定 。 一 些 参 数 ， 例 如 LMD 中 的 y、LMJM 中 的 人，BM25 中 的 ki1， 通 常 都 很 不 直观 ， 与 它 
们 最 初出 现 的 简单 解释 相悖 。DFR 以 无 参数 形式 获取 了 和 这 些 方法 相 媲 美的 检索 有 效 性 。 

本 节 我 们 重 温 一 下 8. 4 节 中 精华 性 的 概念 。 已 知 一 个 随机 文档 Q 中 词 项 t 出 现 次 数 为 
friar HP 放 。>0， 我 们 用 精华 性 的 概念 去 估计 文档 确实 “关于 ”该 词 项 含义 的 概率 。 在 
8. 4 节 中 这 个 概念 是 基于 一 个 二 值 泊 松 分 布 建 模 的 。 在 这 一 节 ， 将 用 一 种 基于 拉 普 拉 斯 连续 
法 则 CLaplace’s Law of succession) 的 方法 去 建 模 。 

DFR 方法 最 基本 的 核心 可 以 归结 为 以 下 这 条 公式 

(1 — Pa): (~log Pi) (9-41) 

在 这 个 公式 中 ，P; 代表 一 个 随机 文档 a PRHAES fea KAN t 的 概率 。 对 数值 一 log 
P, 可 视 为 信息 的 位 数 ， 称 作 自 相关 信息 (self-information)， 它 与 恰好 包含 fi,s 次 t 的 文档 
Q 有 关 《 见 6. 1 节 )。 把 词 项 t 分 配 到 各 个 文档 中 的 随机 过 程 并 不 是 把 大 部 分 的 词 项 分 配 到 
特定 文档 中 ， 因 此 Pi 将 随 着 fi,4 的 增加 而 迅速 减 小 。 


(9-40) 
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P: 提供 一 个 反映 精华 性 的 修正 ， 以 校正 这 种 迅速 减 小 的 现象 。 如 果 d 在 + 中 是 精华 ， 
我 们 可 以 猜测 上 出 现在 文档 中 并 非 偶然 。 假 设 我 们 开始 阅读 a (在 t 中 是 精华 )， 从 而 计算 
h t Ed 中 出 现 的 次 数 。 在 读 到 它 的 结尾 前 ， 我 们 发 现 t 出 现 了 fi,s 一 1 次 。 这 个 发 现 表明 
我 们 期 望 发 现 更 多 次 t, P: 表示 至 少 发 现 一 次 t HBR. Po 随 f,,s 增 大 而 增 大 。 这 样 ， 公 
A (9-41) 中 的 1 一 P; 随 着 fi,4 的 增 大 而 减 小 。 

到 目前 为 止 ， 我 们 只 讨论 了 单个 词 项 的 情况 。 为 了 根据 多 词 项 查询 给 文档 排名 ， 我 们 又 
使 用 了 独立 性 假设 ,给 出 以 下 排名 公式 

Soa: (1— Po) -(—log Pi) l (9-42) 
. teEg 
接 下 来 主要 关注 估计 一 个 给 定 词 项 t 的 Pl 和 Ps ， 因 为 这 个 公式 将 用 这 些 估计 值 来 排名 。 

DFR 理论 由 Amati 和 van Rijsbergen (2002) 提出 ， 并 通过 了 TREC 会 议 上 实验 的 验 
证 (Plachouras 等 人 ，2002; Amati 等 人 ，2003)。 为 了 给 公式 (9-41) 提供 大 量 的 理论 支 
4%, Amati 和 van Rijsbergen (2002) 提出 并 评价 了 七 种 估计 Pi 和 两 种 估计 P: 的 方法 。 在 
这 一 章 ， 我 们 分 别 只 详细 地 讨论 一 种 ， 阐 述 这 些 方法 的 推理 过 程 及 其 检索 有 效 性 。 

另外 ，Amati 和 van Rijsbergen 展示 了 两 种 将 文档 长 度 规范 化 与 DFR 结合 的 方法 。 目 
前 ， 暂 时 忽略 这 一 复杂 的 问题 ， 而 假设 所 有 文档 的 长 度 是 相同 的 。 在 本 章 的 最 后 ， 将 会 用 公 
式 〈8-45) 的 思想 去 处 理 文档 长 度 规范 化 的 问题 ， 为 这 些 文件 计算 一 个 修正 词 频 ， 并 以 此 代 
替 实 际 的 词 频 。 


9.5.1 一 个 随机 模型 


假设 把 词 项 随机 分 布 到 文档 中 。 如 果 词 项 t 在 NN 个 文档 出 现 了 iL 次 ， 则 

Jea t fez +e t fo,N= (9-43) 

其 中 ，fi,; 是 词 项 t ERRi 个 文档 中 出 现 的 次 数 。 假 设 文档 是 无 差别 的 ， 共 有 多 少 种 不 同 的 

方式 可 将 L Rt 的 出 现 分 布 到 N 个 文档 中 呢 ? 例如 ， 将 苇 的 4 次 出 现 分 到 3 个 文档 中 共有 4 

种 不 同 的 方式 : O 全 部 出 现在 同一 个 文档 中 ; (2 一 个 文档 中 出 现 了 3 次 ， 另 一 个 文档 中 

出 现 了 1 次 ; (3) 一 个 文档 中 出 现 2 次 ， 另 外 两 个 文档 中 各 出 现 1 次 ;〈4) 两 个 文档 中 各 出 
现 2 次 。 换 名 话说， 有 多 少 种 不 同 的 词 项 安排 方式 使 之 满足 公式 (9-43)? 

为 了 回答 这 个 问题 ，Amati 和 van Rijsbergen 发 党 这 是 一 个 与 Bose-Einstein 统计 
(Bose-Einstein statistics) 相同 的 问题 。Bose-Einstein 统计 用 于 计算 无 区 别 的 粒子 在 热平衡 
下 可 能 处 于 的 各 种 不 同 的 能 量 状态 。 解 决 办 法 可 用 一 个 二 项 式 系数 表示 : 

人 )- Gt 
l ~ (N -—1)! L! 

另外 ， 这 个 问题 也 等 价 于 求 将 m 个 球 放 到 个 不 同 的 盒子 中 的 所 有 组 合 数 ， 即 组 合 的 
分 装 问题 (occupancy problem), 

为 了 计算 词 项 上 的 估计 概率 已 ， 假 设 一 个 给 定 文档 aq Pt ERKKA feao EA FE 
1 一 了 i,a 次 出 现 随 机 分 配 到 剩余 文档 中 ， 满 足 如 下 公式 

fiat e + fid-1 t firari + > + fon=h— fia (9-45) 
满足 这 个 公式 的 组 合 数 可 由 公式 (9-44) 得 到 ， 
(N — 1) + (le — fea) —1 ) _((N-1)+ (l — fra) - 1)! 
li — fia (N — 2)! (L — fea)! 


(9-44) 


(9-46) 
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这 个 公式 假设 一 个 被 选中 的 文档 中 已 包含 fi,s 次 +t 时， 剩余 词 项 的 分 配方 式 数 量 。 公 式 
《9-44) 表 示 将 1, 次 二 的 出 现 分 配 到 六 个 文档 中 的 方式 数量 。 这 样 ， 这 两 条 公式 的 比值 就 是 
P11， 即 一 个 被 选中 的 文档 包含 f4.a 次 t 的 概率 : 
(oP edt) 
P= h fia _((N ~1) +4 (le ~ fea) -I (N — Dh! 
N+h—1 (Na fea)! (N +h — 1)! 
Cn) 

遗憾 的 有 是， 公式 (9-47) 中 出 现 了 阶乘 使 其 无 法 直接 使 用 。 为 此 ，Amati 和 van Rijsbergen 
提出 了 两 种 估计 该 值 的 方法 ， 并 证 明了 这 两 种 方法 与 原来 的 方法 性 能 相近 。 用 这 些 方法 对 
Pi 进行 估计 可 以 简单 表示 为 : 


(9-47) 


_ 1 L./N fia i 
n= (Tm) (AN) (9-48) 
因此 有 

— log P=log(1 + /N) + fta log(l + N/l) (9-49) 
公式 右 半 部 分 容易 让 人 联想 到 TF-IDF 的 形式 ， 但 是 这 里 用 l 代替 了 Ni。 
9.5.2 ”精华 性 


Amati 和 van Rijsbergen 通过 拉 普 拉 斯 连续 法 则 获得 了 ps 的 一 个 估计 ， 这 用 一 个 例子 
可 以 更 好 地 说 明 。 假 设 我 们 连续 在 m 一 1 个 早晨 都 能 看 到 日 出 。 由 于 缺少 其 他 信息 ， 如 地 球 
围绕 太阳 运行 的 物理 模型 等 ， 那 么 明 早 太 阳 会 升 起 这 一 事件 发 生 的 概率 会 有 多 大 呢 ? 尽管 我 
们 相当 确定 这 一 定 会 发 生 ， 但 非常 肯定 地 将 这 个 概率 赋予 1 也 是 不 恰当 的 。 毕 竟 明 天 太阳 还 
是 有 可 能 不 会 升 起 。 因 此 〈 在 没有 得 到 有 关 的 数学 方面 细节 的 情况 下 ) ， 连 续 法 则 指出 这 一 
概率 值 应 为 ma/( 十 1) 。 

Amati 和 van Rijsbergen 应 用 连续 法 则 进行 以 下 估计 


fta 
P.: = 2 一 
2 hatl (9-50) 


他 们 将 这 个 公式 解释 为 : 假设 相关 文档 的 长 度 非常 大 ， 文 档 […] 中 的 词 项 中 再 多 出 现 一 个 
词 条 的 条 件 概 率 。 将 这 个 估计 公式 和 公式 (9-49) 一 起 代入 公式 〈9-41) 可 得 
(1 — Pp)(—log P1) _log(1 + LAR Jea log(1 + N/l) 
tatl 
这 个 公式 中 的 词 频 部 分 和 Okapi BM25 排名 公式 (公式 〈8-48)) 中 的 词 频 部 分 相似 ， 并 且 
拥有 类 似 的 饱和 性 。 忽 略 fi,4 的 值 ， 公 式 (9-51) 的 值 上 限 为 Iog(1+ AN)+TIog(L+ NA 。 


95.3 ”文档 长 度 规范 化 


公式 (9-51) 假设 所 有 文档 长 度 相 同 。 当 文档 长 度 改变 时 ，Amati 和 van Rijsbergen 提 
出 一 种 规范 化 方法 ， 即 用 修正 词 频 fc RABY feas HTH ERARE 
出 两 种 估计 方法 并 进行 了 评价 。 这 些 方法 可 以 更 好 地 表示 为 
Fra = fea: log (1+ lavg/la) (9-52) 
他 们 将 公式 (9-49) 和 公式 (9-50) 合并 ， 并 以 此 修正 公式 〈9-52》， 可 以 得 到 DFR 方法 的 
GL2 变形 。 我 们 用 这 种 变形 来 描述 本 书 中 出 现 的 实验 。 





(9-51) 
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9.6 段落 检索 及 排名 


本 书 中 提 及 的 大 部 分 排名 方法 都 是 针对 文档 而 言 的。 根据 应 用 环境 的 不 同 ， 这 些 文档 可 
能 是 网 页 、 新 闻 、 电 子 邮件 或 这 些 形式 的 结合 以 及 其 他 文档 类 型 。 在 某 些 环 境 中 可 能 对 文档 
内 的 元 素 进 行 排名 会 更 合适 ， 如 书本 中 的 页 面 或 新 闻 中 的 章节 等 。 在 另 一 些 环境 中 ， 也 许 将 
文档 内 的 文本 片段 作为 排名 结果 返回 会 更 令 人 满意 ， 这 就 是 任意 段落 检索 (arbitrary pas- 
sage retrieval) 。 

这 样 的 一 个 应 用 环境 就 是 要 构造 一 个 文本 片段 ， 用 于 为 用 户 呈 现 一 个 检索 到 的 文档 内 容 
的 简单 概要 。 图 9-1 展示 了 搜索 引擎 从 维基 百科 全 书 中 对 查询 “shakespeare”, “marriage”) 
返回 的 结果 。 搜 索引 警 从 文档 正文 中 抽取 出 一 个 片段 ， 说 明了 搜索 词 项 出 现 的 内 容 ， 连 同 其 
网 页 标题 和 地 址 一 起 返回 给 用 户 。 










William Shakespeare — Wikipedia, the free encyclopedia 

At the age of 18, Shakespeare married the 26-year-old Anne Hathaway. The con- 
sistory court of the Diocese of Worcester issued a marriage licence on 27 November 
1582. Two of Hathaway’s neighbours posted bonds the next day ... 
en.wikipedia.org/wiki/William_Shakespeare 





图 9-1 在 维基 百科 全 书 中 ， 查 询 “shakespeare”, “marriage”) 的 一 个 典型 的 搜索 引 
擎 返回 的 结果 。 结 果 是 内 容 中 包含 了 查询 词 项 的 文档 中 的 一 个 简要 片段 


问答 系统 是 任意 段落 检索 的 另外 一 个 有 价值 的 应 用 (Tellex 等 人 ，2003)。 给 出 一 个 查 
询 如 “What is the population of India?”， 问 答 系 统 不 是 给 出 一 个 包含 答案 的 文档 ， 而 是 直 
接 给 出 确切 答案 (“11. 2 亿 ” 。 段 落 检索 通常 是 问答 系统 的 前 期 步骤 。 信 息 检 索 系 统 会 从 问 
题 中 提取 关键 词 ， 并 构造 出 一 个 查询 “population”, “india”) 用 于 处 理 。 先 从 语料库 中 检 
索 出 包含 这 些 词 项 的 段落 ， 然 后 对 其 进行 分 析 以 提取 并 验证 出 可 能 的 答案 。 以 相 邻 位 置 包含 
查询 词 项 的 文本 区 间 (“…population of India, =”) 就 有 可 能 是 一 个 包含 了 答案 (“+The 
population of India is…”) 的 段落 ， 这 个 段落 虽然 看 起 来 稍 长 但 对 完整 文档 而 言 仍然 算 短 的 。 
这 个 区 间 表 示 了 文档 中 的 “热点 ”， 其 中 就 有 可 能 找到 答案 。 

在 2. 2.2 节 中 我 们 提 到 了 一 种 纯粹 基于 词 项 邻近 度 的 排名 方法 。 该 方法 为 查询 向 量 qg 
(tis te, ts ta) 确定 一 个 覆盖 〈cover) ， 这 个 覆盖 可 以 定义 成 一 个 文本 区 间 Lu, v], 
每 个 查询 词 项 在 区 间 中 至 少 出 现 一 次 ， 并 且 不 包含 一 个 更 小 区 间 也 满足 上 述 条 件 。 

现在 我 们 将 覆盖 的 概念 扩展 为 一 个 查询 词 项 的 子 集 。 对 于 mn 个 词 项 ， 我 们 定义 一 
个 im BS Cm-cover) 为 文档 集 上 的 一 个 区 间 Lu, v], AAA m 个 不 同 词 项 的 至 少 
一 次 出 现 ， 并 且 不 包含 一 个 子 区 间 也 满足 上 述 条 件 。 为 简单 起 见 ， 我 们 假设 查询 g 中 没有 
重复 的 词 项 ， 因 为 本 节 中 讨论 的 段落 排名 方法 不 考虑 重复 查询 词 项 。 例 如 ， 表 2-1 中 查询 向 
量 〈“you”,“quarrel”,“sir”》 的 2- 覆 盖 由 以 下 区 间 组 成 : [2，3]、[3，4]j、[4，5]、[L5， 
6]、[8，10]、[L10，12]、[12，16]、[24，28j。 注 意 到 区 间 112, 24] 不 在 这 个 集合 中 ， 
因为 已 经 包含 了 [12，16]j。 再 注意 到 集合 包含 了 区 间 [24，28j， 尽 管 它 跨越 了 最 后 三 个 文 
档 。 在 多 数 应 用 中 ， 诸 如 此 类 的 m- 覆 盖 在 使 用 之 前 多 数 都 已 经 被 过 滤 掉 了 。 然 而 ， 为 简单 
起 见 ， 我 们 定义 -覆盖 时 不 考虑 文档 边界 和 其 他 结构 ， 而 应 用 适当 的 后 处 理 步骤 来 处 理 。 

-覆盖 的 概念 可 用 于 支持 问答 系统 中 的 片段 生成 和 任意 段落 检索 。 假 设 我 们 在 一 个 已 
索引 网 页 中 查找 一 个 片段 来 显示 。 理 想 情况 下 ， 可 以 显示 这 样 的 片段 ， 其 中 所 有 查询 词 项 尽 
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可 能 地 靠近 ,但 是 这 个 目标 不 总 是 可 能 的 。 有 一 些 查 询 词 项 距离 非常 远 ， 分别 在 文档 开始 处 
和 结尾 处 。 有 一 些 查询 词 项 只 在 文档 标题 中 出 现 ， 而 没有 出 现在 正文 中 。 有 一 些 查 询 词 项 根 
本 就 没有 在 文档 中 出 现 。 因 此 片段 可 能 由 文本 碎片 组 合 而 成 ， 这 些 碎片 对 应 一 个 或 多 个 m- 
im, 覆盖 中 包含 了 尽 可 能 多 的 查询 词 项 。 一 个 合适 的 -覆盖 集 一 经 确定 ， 每 一 个 覆盖 都 

被 扩展 到 最 近 的 句子 边界 ， 然 后 裁剪 为 合适 的 尺寸 。 

在 问答 系统 中 ， 对 比 一 个 包含 了 所 有 词 项 但 长 得 多 的 段落 ， 一 个 包含 了 查询 词 项 严格 子 
集 且 词 项 出 现 位 置 邻近 的 段落 要 更 接近 管 案 。 例 如 ， 假 设 我 们 要 回答 问题 “Who starred in 
the film Shakespeare in Love?” 我 们 可 能 设 定 查 询 向 量 为 “starred”, “film”, “Shake- 
speare”，“love”) 并 且 分 析 可 能 的 答案 。 相 比 一 个 包含 全 部 词 项 的 长 段落 ， 一 个 包含 词 项 
“Shakespeare” 和 “love” 以 及 “starred” 或 “film” 中 的 一 个 的 3- 履 盖 短 段落 更 有 可 能 指 
示 了 答案 ， 因 为 长 段落 中 有 可 能 混合 了 其 他 姓名 和 内 容 。 更 一 般 的 ， 对 于 片段 生成 和 问答 这 
样 的 应 用 ， 我 们 需要 权衡 区 间 长 度 和 包含 的 词 项 多 少 来 进行 区 间 的 选择 。 
9.6.1 段落 评分 

假设 我 们 根据 查询 q= (ti, te, s tr)? ABE Lu, v] 评分 ， 且 该 区 间 包 含 了 查 
询 词 项 的 一 个 子 集 qq, Hip g= (tl. te, th Hmn., Rita 
选择 的 等 长 区 间 中 至 少 包含 一 个 查询 词 项 的 概率 ， 来 为 长 度 为 l= v—utl 的 区 间 Le, v] 
评分 。 正 如 9. 5 节 所 述 ， 段 落 评 分 方法 将 词 项 的 实际 分 布 与 一 个 随机 分 布 关联 起 来 。 

为 了 这 一 目标 ， 我 们 对 文档 集 建 模 ， 将 其 视 为 一 系列 独立 产生 的 词 项 ， 并 假设 对 于 tE 
g'， 存 在 一 个 固定 概率 pt 匹配 任意 给 定 的 文档 位 置 。 注 意 到 这 个 假设 允许 多 个 词 项 匹配 一 
个 位 置 。 尽 管 不 现实 ， 当 pi 很 小 时 ， 这 个 假设 对 于 大 多 数 词 项 还 是 可 以 接受 的 ， 这 有 助 于 
简化 段落 评分 公式 的 引入 。 

给 定 一 个 长 度 1 二 v 一 % 十 1 的 区 间 [ww，wvj， 区 间 中 包含 一 次 或 多 次 t 的 概率 pA, DH: 


p(t)= 1- (1— p) (9-53) 
= 1 — (1 — lp + O(p,?)) (9-54) 
~l- py (9-55) 

那么 区 间 Lu, v] 包含 9' 中 所 有 词 项 的 概率 为 : 
pq’) =] lt.) = [[i p=. I] = (9-56) 

t€q’ ted’ ted’ 

最 后 ， 我 们 估计 p:e 的 值 作为 词 项 t 的 集合 频率 : 

2 一 上 /le (9-57) 


Eh, 1, 为 t 出 现在 文档 集中 的 总 次 数 ，ic 为 文档 集 的 总 长 度 。 将 其 代 和 人 并 取 负 对 数 〈 即 
自 相关 信息 ) 可 以 得 出 : 
》 (log(te/lz)) — m .log(l) (9-58) 


teéq’ 


公式 中 长 度 和 集合 频率 之 间 的 关系 与 公式 (9-32) 中 的 关系 类 似 。 


96.2 实现 
也 许 并 不 奇怪 ， 确 定 m.- 履 盖 的 算法 就 是 图 2-10 中 自 适 应 算法 的 简单 扩展 ， 扩 展 算法 的 


细节 在 图 9-2 中 给 出 。 对 给 定 的 m 值 ， 算 法 可 以 确定 一 个 给 定位 置 的 下 一 个 me. 
算法 第 1 一 2 行 找到 该 给 定位 置 后 每 个 词 项 的 下 一 次 出 现 位 置 。 第 m 大 的 词 项 位 置 就 是 
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-覆盖 的 终点 〈2) 〈 第 3 行 )。 对 于 v 之 前 出 现 的 每 个 词 项 ， 为 其 找到 v 之 前 最 后 出 现 的 

位 置 〈 第 7 一 9 行 )。 这 些 值 中 最 小 的 成 为 

mW u). next Cover (fr tr) position, m) = 
为 获得 全 部 -覆盖 ， 对 于 所 有 的 m> Vli] — next(t:, position) 

1, 我 们 在 文档 集 范 围 内 重复 调用 这 个 next- v — mth largest element of V 

Cover 的 扩展 版 本 。 


if v = oo then 
for m — n down to 2 do 





return [oo, co] 
uv 
for i — 1 to n do 
if V[i] < v and prev(ti, v + 1) < u then 
u — prev(ti, v + 1) 
return [u, v] 


u 二 —0O 
while u < co do 
[u,v] — nextCover((t1, ta, ...,tn),u,™) 
if u 4 oo then 
report the m-cover |u, v] 


= © ®N Oe A WH 


© 








图 9-2 给 定 一 个 位 置 后 ， 确 定 词 项 向 量 Ch, 


vy tna) -覆盖 的 下 一 次 出 现 的 函数 。 
没 必要 显 式 地 生成 1 覆盖， 因为 可 以 直接 从 整数 数组 V 用 于 存储 中 间 计算 结果 。 


词 项 的 位 置 列表 信息 中 取得 。 

根据 应 用 的 不 同 ， 通 常 不 需要 在 整个 文档 集 上 生成 所 有 的 m- 覆 盖 。 对 于 片段 生成 ， 我 
们 感 兴趣 的 只 是 文档 排名 靠 前 部 分 的 mw- 覆盖 。 对 于 问答 系统 ， 我 们 感 兴趣 的 只 是 在 特定 数 
量 的 文档 中 最 优 的 那个 mB. Clarke A (2006) 对 第 二 种 情况 中 快速 生成 m- 秦 盖 的 
算法 优化 进行 了 讨论 ，。 
9.7 ”实验 对 比 

表 9-1 中 显示 了 本 章 中 讨论 的 检索 方法 的 有 效 性 。 该 表 中 的 数据 可 与 表 25 和 表 8-2 中 
的 数据 进行 对 比 。9, 6 节 中 提 到 的 段落 检索 算法 没有 出 现在 表 中 ， 因 为 该 算法 是 针对 段落 的 


而 不 是 针对 文档 的 。 尽 管理 论 上 它 也 可 以 应 用 于 文档 排名 ， 通 过 给 每 个 文档 赋予 其 最 大 段落 
得 分 的 方法 可 以 达到 这 一 目 ， 但 是 这 种 方法 不 适用 于 单词 项 的 查询 。 


表 9-1 本 章 讨论 的 检索 方法 的 有 效 性 














TREC45 
wit 8 | 1999 | 3005 | 
0.179 0.432 0.209 0.416 0.211 0.494 
0.193 0.428 0.226 0.484 0.244 0.580 
0.183 0.446 0.216 0.465 0.248 0.550 










LMJM 公式 (9-31) 
LMD 公式 (9-32) 0.450 
DFR 公 式 (9-51)/ 公 式 (9-52) 


0.257 
0.293 











9.8 延伸 阅读 


本 章 中 前述 的 有 关 信 息 检 索 的 语言 模型 方法 的 意义 重大 的 工作 ， 来 自 于 Ponte 和 Croft 
(1998), Berger 和 Lafferty (1999), Zhai 和 Lafferty (2004), LAR Hiemstra (2001) 的 博 
士 学 位 论文 。Croft 和 Lafferty 一 起 编 繁 的 书 中 涵盖 了 直至 2003 年 的 大 部 分 工作 (Croft 和 
Lafferty, 2003), Lavrenko 和 Croft (2001) 对 语言 模型 方法 中 存在 的 相关 性 进行 了 探索 。 
其 他 的 早期 工作 中 包括 Miller ÆA (1999) 的 工作 ， 他 们 假设 查询 是 从 调用 了 隐 式 马尔 可 
夫 模 型 “HMM) 的 文档 中 产生 出 来 的 ， 其 中 和 是 从 一 个 文档 状态 和 一 个 总 体 语 言 状 态 之 间 
选 出 来 的 ， 并 以 集合 形式 表示 ， 由 此 推导 出 了 公式 〈9-21)。 之 后 ， 他 们 将 这 个 隐 式 马尔 可 
夫 模 型 框架 扩展 为 伪 相 关 反 馈 、 邻 近 项 和 文档 优先 的 联合 。 
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在 整个 人 类 语言 技术 的 发 展 中 ， 平滑 在 语言 模型 化 技术 中 扮演 了 重要 角色 。 第 6 章 中 关 
于 Manning 和 Schiitze (1999) 的 内 容 中 包括 了 语言 建 模 的 概述 。Chen 和 Goodman (1998) 
提出 了 一 种 平滑 技术 比较 的 具体 方法 。 

语言 建 模 方法 奠定 了 现代 信息 检索 研究 的 基础 ， 过 去 几 年 间 的 多 数 信 息 检索 会 议 文献 集 
中 都 包含 了 大 量 基于 语言 建 模 的 文章 。 尽 管 本 书 并 不 是 要 成 为 一 个 完整 的 参考 文献 ， 但 是 我 
们 还 是 提供 一 些 近期 的 研究 成 果 ， Metzler 和 Croft (2004) 将 语言 建 模 方法 和 概率 推论 模型 
(Turtle 和 Croft, 1991; Greiff 等 人 ，1999) 进行 了 结合 ; Cao SEA (2005) 将 依赖 性 集成 
于 语言 建 模 方法 中 。Tao 和 Zhai (2007), Zhao 和 Yun (2009) 将 相似 性 指标 集成 于 语言 
模 方法 中 。Cao FA (2008) 将 伪 相 关 反 馈 考 虑 进 语言 建 模 方法 框架 之 中 。Lv 和 Zhai 
(2009) 考虑 了 集成 词 项 的 位 置信 息 。Zhai (2008b) 做 了 一 个 关于 最 近 的 信息 检索 的 语言 
模 方法 的 调查 研究 。 


9.9 练习 


练习 9. 1 你 会 发 现 某 个 文档 集中 的 文档 有 一 个 30 天 的 “半衰期 >。 经 过 30 天 的 时 间 ， 文 档 的 相关 性 
先 验 概率 p(y| 也 ) 会 减 为 开始 时 的 一 半 。 将 这 个 信息 结合 进 公式 〈9-8)， 简 化 这 个 公式 为 等 价 排名 的 形式 ， 
使 得 所 有 假设 情况 均 成 立 。 

练习 9. 2 证 明 Dirichlet 平滑 的 结果 模型 可 视 为 概率 分 布 ， 即 证 明 > rey M4(t)=1 。 

练习 9. 3 (项 目 练习 ) 实现 LMD 排名 公式 公式 〈9-33)) 。 并 应 用 练习 2. 13 中 得 到 的 文档 集 或 其 他 
任何 文档 集 (如 TREC 文档 集 》 来 验证 你 的 实现 。 

练习 9. 4 (HAS) ”实现 9.5 节 中 描述 的 DFR 排名 方法 。 并 应 用 练习 2. 13 中 得 到 的 文档 集 或 其 他 
任何 文档 集 〈 如 TREC 文档 集 ) 来 验证 你 的 实现 。 

练习 9. 5 (项 目 练习 ) KA O. 6 节 中 提 到 的 段落 检索 和 评分 方法 。 并 用 你 的 实现 为 本 书 中 描述 的 文档 
检索 方法 之 一 提供 结果 片段 。 
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本 章 中 ， 我 们 考虑 的 信息 需求 对 于 大 部 分 用 户 来 说 是 长 期 的 、 连 续 的 或 普遍 的 。 表 10-1 
给 出 了 维基 百科 60 篇 文章 的 一 些 节 选 。 你 能 认 出 每 篇 节选 的 语言 吗 ? 图 10-1 给 出 了 一 个 收 
件 箱 中 的 18 封 邮 件 ， 你 能 认 出 其 中 的 10 封 垃圾 邮件 吗 ? 


表 10-1 维基 百科 中 60 个 特定 语言 版 本 的 文本 片段 。 每 个 片段 都 是 某 篇 文章 
的 前 50 字 节 ， 这 些 文章 都 是 通过 “random article” 链 接 得 到 的 





180g cuvac | 1905 móvag | 

A távolsági jelzémozzanatok a látás során t 
Auzainvilliers é uma comuna francesa na região 
Burung Pacat ekor Biru adalah salah satu daripada 
Básendar (Bátsandar) voru fyrrum kaupstaður og 
Ciklobutan je bezbojni gas koji pripada grupi cik 
Danang ( Da Nang , Da Nang, , fransk navn Tour 
Den Henri Grethen (* 16. Juli 1950 zu Esch-Uelzec 
George Thomas Moore ( * 23 de febrero 1871 , 
Gold Meda! är den högsta utmärkelsen från Roy 
Her Majesty je píseň britské hudební skupiny 
Jelizaveta Petrovna. Portree autor Charles-Amédé 
Koordinatės : 42°04'N 19°30'E 

Maria Theresia Opladen (* 6. April 1948 in Engels 
NGC 782 je galaxia v súhvezdí Eridanus , ktorú 
Pedr IH ( 21 Chwefror , 1728 - 17 Gorffennaf , 
Püstəqasım , Azərbaycan in Quba rayonunda bi 
Rënia heroike e dëshmorëve Isa Kastrati, Sokol 
Suster-vaihe eli Susterian oli luultavasti ylämi 

Edé ni ilana kan pataki tó jé gbòóg 
Binpye-3onoTeubkuvit manawa 

3a 中 MIMa or 1994 BMDKTe Tapsan 

YKonmMKO cTe Tpa5KHJIE pacy n 

HN Saul gdh yy 6 SUIS le 


eT BH At 

ae wee Teal A F 

BAT ( BCA :Jaygaon) 
PONOT ROSSET 


SIAH GIB — beg 
Re, GBS, JP (19414 11A 一 ), 又 





这 两 个 例子 中 的 基本 信息 需求 
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识别 语言 或 识别 垃圾 邮件 一 一 都 是 容易 理解 并 在 很 多 


环境 中 都 需要 用 到 的 。 搜 索引 擎 可 能 需要 知道 查询 所 使 用 的 语言 ， 以 便 提供 一 个 相关 反馈 ; 
或 检索 的 人 也 许 希望 可 以 明确 指定 检索 出 来 的 文档 所 用 的 语言 〈 可 能 与 查询 所 使 用 的 语言 
间 )。 一 个 垃圾 邮件 过 滤器 也 必须 识别 出 垃圾 邮件 才能 阻止 它 进一步 流传 。 一 个 客户 支持 的 
“帮助 桌面 ”也 需要 路 由 收 到 的 邮件 ， 像 人 一 样 阅读 和 回复 它 。 
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[Subject | : n — | 
Washington Mutual Urgent Credit/ Debit card update et emdlaug@enron.com_ eas 
Urgent Humanitarian Relief required for Tsunamis Indonesia SEHAT CHARITIES = SKean@enroncom ts 
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Start Date: 10/25/01;HourAhead hour: 3; <CODESITE> — Schedule Crawler petedavis@enron.com 
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ERV Notification: (Enron Americas Position Report - 11/21/2001) Wallace, Cassi = “Abel, Chris", “Allison, John”. "~ 
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Windows XP Pro $49.95, Office 2003 $69.95 Win KP Lynda Hyatt mmotley@enron.com 
3 Days left to Respond Anthony kholst@enron.com 
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图 10-1 18 封 邮 件 中 有 10 封 垃圾 邮件 ， 你 可 以 把 它们 都 找 出 来 么 


第 三 个 和 最 后 一 个 例子 考虑 面向 搜索 的 信息 需求 情况 ， 如 TREC 过 滤 专 题 中 的 主题 383 
一 样 〈 如 图 10-2 所 示 )， 这 是 一 个 关于 精神 病 的 治疗 方法 主题 。 如 前 面 章节 所 述 ， 搜 索引 擎 
可 用 于 在 语料库 中 找到 历史 文档 。 但 是 用 户 ， 也 许 是 一 个 保健 专家 ， 想 随时 知道 与 这 个 查询 
相关 的 任何 最 新 文章 以 继续 了 解 相关 的 进展 。 这 两 个 基本 的 信息 需求 是 一 样 的 ， 但 在 第 一 种 
情况 中 是 短暂 的 ， 在 第 二 种 情况 中 是 长 期 的 。 


<top> 

<num> Number: 383 

<title> mental illness drugs 
<desc> Description: 


Identify drugs used in the treatment of mental illness. 
<narr> Narrative: 

A relevant document will include the name of a specific 
or generic type of drug. Generalities are not relevant. 
</top> 





图 10-2 TREC 7 特定 任务 与 TREC 8 过 滤 专题 中 的 主题 383 


分 类 (categorization) 是 为 了 满足 某 种 信息 需求 对 文档 进行 标记 的 过 程 ; 在 我 们 的 例子 
中 文档 被 标记 上 一 个 标签 ， 指 示 文 档 的 语言 、 是 垃圾 信息 还 是 有 用 信息 〈 即 不 是 垃圾 信息 )、 
相关 或 不 相关 。 过 滤 (filtering) 是 一 个 根据 某 些 长 期 信息 需求 而 持续 进行 的 对 文档 评价 的 
过 程 。 一 般 来 说 ， 过 滤 的 结果 是 根据 信息 需求 将 文档 放 和 人 0 个 或 多 个 目的 地 。 例 如 ， 垃 圾 邮 
件 过 滤器 把 垃圾 邮件 直接 删除 或 放 到 垃圾 箱 里 ， 同 时 将 正常 邮件 放 到 收 件 箱 里 。 一 个 新 闻 过 
滤器 会 把 有 关 精 神 健康 的 文章 发 送 给 保健 专家 。 路 由 (routing) 本质 上 与 过 滤 一 样 ， 根 据 
文档 所 属 的 类 别 ， 把 它们 送 到 不 同 的 地 方 。 路 由 也 称 为 信息 选择 性 传播 (Selective Dissemi- 
nation of Information, SDI). 

分 类 和 过 滤 的 问题 与 检索 的 问题 很 类 似 。 在 某 种 意义 上 来 说 ， 它 们 只 是 同一 个 问题 的 两 
种 不 同 描述 ,分 类 和 过 滤 为 给 定 文档 找到 所 属 分 类 ; 也 就 是 ， 文 档 符合 的 长 期 信息 需求 。 另 
一 方面 ， 检 索 是 找到 满足 给 定 信息 需求 的 所 有 文档 ; 也 就 是 ， 文 档 所 属 的 某 一 类 别 ， 与信 
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分 类 和 过 滤 在 很 多 方面 还 是 不 同 于 检索 的 。 分 类 一 般 来 说 〈 不 总 是 ) 从 信息 需求 的 描述 
或 查询 方面 都 与 检索 相差 甚 远 。 很 难 想象 前 面 章 节 中 提 到 的 检索 方法 可 以 对 诸如 “ 找 出 用 荷 
兰 语 写 的 文档 ”或 “ 找 出 垃圾 信息 ”这 样 的 信息 需求 描述 给 出 有 意义 的 响应 。 即 使 给 出 一 个 
可 处 理 的 信息 需求 ， 如 保健 专家 的 需求 ， 信 息 需 求 的 长 期 性 也 使 得 需要 花费 大 量 工作 与 系统 
沟通 这 个 需求 。 一 种 方法 是 由 专家 人 工 制订 一 些 规 则 : 词汇 表 ， 语 法 和 指示 各 种 语言 、 垃 专 
信息 或 心理 健康 治疗 的 特征 。 这 些 规 则 实际 上 就 是 复杂 的 布尔 查询 。 只 要 付出 足够 的 努力 ， 
还 是 可 以 定义 出 规则 来 区 分 语言 、 垃 圾 还 是 非 垃圾 邮件 、 是 治疗 抑郁 症 的 文章 还 是 其 他 文章 
的 。 但 是 ， 正 如 搜索 一 样 ， 自 动 化 分 类 和 过 滤 还 是 会 更 高 效 和 更 有 效 。 我 们 将 考虑 的 自动 化 
方法 就 是 机 器 学 习 (machine learning) ， 也 称 为 分 类 器 (classifier)。 分 类 器 从 样本 中 学 习 如 
何 区 分 属于 不 同类 别 的 文档 。 

从 某 种 意义 上 来 说 ， 任 何 检索 方法 都 是 一 个 分 类 器 ， 因 为 它 的 目标 都 是 区 分 相关 文档 与 
不 相关 文档 。 同 样 ， 搜 索引 擎 会 返回 一 个 文档 集 或 一 个 有 序列 表 ， 分 类 器 也 分 为 硬 Chard) 
和 软 (soft) 两 种 。 硬 分 类 器 chard classifier) 会 返回 一 个 布尔 结果 ， 表 明文 档 是 否 属于 某 
个 类 别 ， 而 软 分 类 器 (soft classifier) 会 返回 一 个 置信 和 度 。 软 分 类 通常 也 称 为 排名 (rank- 
ing) ， 而 软 分 类 器 的 学 习 称 为 学 习 排名 (learning to rank), 

尽管 第 8 章 介 绍 的 BM25 排名 方法 并 不 是 传统 意义 上 的 机 器 学 习 ， 但 是 它 满足 软 分 类 器 
的 定义 ， 也 可 用 于 本 章 提 出 的 过 滤 和 分 类 问题 ， 效 果 还 不 错 。10. 1 节 中 给 出 了 之 前 所 述 的 
样 例 ， 并 展示 了 分 类 和 排名 在 解决 这 个 问题 时 的 作用 。 我 们 用 BM25 来 解释 这 个 作用 ， 因 为 
大 家 对 它 比较 熟悉 了 ， 并 且 它 也 比较 适合 作为 一 个 基准 来 与 本 章 及 其 后 面 提出 的 方法 进行 比 
较 。 为 了 比较 的 目的 ， 我 们 还 提出 了 评估 指标 。 

在 10. 2 节 中 将 更 正式 地 对 竺 分类， 并 在 10. 3 一 10. 7 节 中 介绍 大量 的 对 分 类 和 过 滤 都 很 有 
用 的 学 习 方 法 。 在 10. 8 节 ， 我 们 把 采用 这 些 方法 的 结果 与 10. 1 节 中 BM25 的 结果 作 了 比较 。 


10.1 详细 示例 


通过 一 系列 的 示例 ， 我 们 说 明了 上 典型 过 滤 和 分 类 问题 、 解 决 方案 和 评价 方法 。 上 述 这 些 
问题 的 变形 包括 : 面向 主题 的 过 滤 、 语 言 分 类 以 及 垃圾 信息 过 滤 。 本 节 将 用 第 8 章 介绍 的 
BM25 排名 和 相关 反馈 方法 解决 这 些 问题 。 尽 管 BM25 并 不 是 专门 用 于 过 滤 和 分 类 的 ， 但 是 
它 为 我 们 理解 这 个 领域 提供 了 一 个 方便 的 切 人 点 ， 并 提供 了 一 个 比较 的 基准 。 在 研究 这 些 问 
题 及 其 解决 方案 时 会 制定 相应 的 评价 指标 。 我 们 首先 以 一 个 类 似 于 为 BM25 设计 的 排名 检索 
任务 的 例子 作为 开始 ， 然 后 说 明 几 个 变 体 的 任务 、 方 法 和 评价 指标 的 主要 区 别 。 


10.1.1 面向 主题 的 批 过 滤 


考虑 保健 专家 的 信息 需求 。 这 个 主题 格式 是 非常 适合 作为 搜索 引擎 的 输入 的 ， 但 过 滤 任 
务 刚 开 始 时 ， 要 被 搜索 的 文档 根本 还 不 存在 ! 因此 只 能 等 待 文档 的 到 来 。 如 果 我 们 能 等 待 大 
批文 档 到 来 ， 我 们 可 将 这 些 文档 聚合 为 一 个 语料库 ， 建 立 索引 ， 然 后 运用 一 个 类 似 BM25 的 
搜索 方法 去 得 到 一 个 最 有 可 能 相关 的 文档 排名 列表 ， 然 后 返回 给 用 户 。 之 后 我 们 可 以 等 待 更 
多 的 文档 ， 然 后 重复 以 上 过 程 来 轮流 处 理 每 一 批文 档 。 这 种 方法 称 为 批 过 滤 (batch filte- 
ring) 。 从 用 户 的 角度 看 ， 如 果 在 一 个 合适 的 时 间 间 隔 内 有 足够 多 的 文档 到 达 ， 则 批 过 滤 是 
可 行 的 解决 方案 。 保 健 专家 也 会 对 每 星期 或 每 个 月 都 能 看 到 新 的 文章 而 感到 满意 。 确 实 ， 这 
是 文档 分 发 的 首选 模式 。 在 其 他 应 用 中 ， 如 邮件 过 滤 ， 批 处 理 带 来 的 延迟 可 能 就 不 可 接受 了 。 
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为 了 说 明 批 过 小 方法 ， 我 们 假设 主题 383 反映 了 用 户 需求 ， 并 用 BM25 按时 间 顺 序 处 理 
TREC45 语料库 。 特 别 的 ， 


我 们 用 标题 作为 查询 : “mental”, “illness”, “drugs”). 

根据 多 语言 搜索 和 垃圾 信息 过 滤 的 经 验 ， 我 们 用 字 节 4-gram 表示 词 条 (参见 3. 3 
节 )。 主 题 383 中 由 于 采用 与 不 采用 词 干 得 到 的 结果 相似 ， 所 以 均 不 列 出 这 些 结果 。 
使 用 BM25 的 参数 集合 8 一 1.1，2! 王 0， 这 样 可 以 有 效 地 忽略 文档 长 度 所 产生 的 影 
响 。 本 章 后 续 实 验 中 均 使 用 这 个 参数 集 。 

本 实验 不 使 用 相关 反馈 或 仿 相 关 反 馈 (8. 6 节 )。 

我 们 首先 使 用 1993 年 的 金融 时 报 (Financial Times, FT) 作为 文档 集 ， 然 后 使 用 


TREC45 文档 集 。 这 些 文档 都 是 按时 间 顺 序 排序 的 ， 跨 度 为 2 年 ， 共 有 N=140 651 
个 文档 ， 其 中 的 67 个 与 主题 383 相关 。 把 这 个 文档 序列 用 作 一 个 评价 文档 集 ， 用 于 
评价 TREC8 过 滤 专 题 中 的 路 由 与 批 过 滤 (routing and batch filtering) 任务 的 结果 。 
为 了 模拟 文件 批 大 小 不 同 的 批 过 滤 过 程 ， 我 们 将 所 有 文档 分 成 多 个 大 小 相同 的 文档 
集 ， 集 合 大 小 从 141 个 (1000 批文 档 ， 每 批 包含 一 天 的 文档 信息 ) 连续 变化 到 
140 651 个 (1 批文 档 ， 包 含 了 两 年 的 文档 信息 )。 每 一 批 都 视 为 是 一 个 单独 的 文档 集 
进行 索引 。 按 时 间 顺 序 把 每 批文 档 送 入 到 BM25 过 滤器 中 ， 每 次 一 批 。 
评价 过 滤器 的 效果 与 评价 排名 检索 的 效果 有 些 不 同 。 我 们 引 人 一 些 必要 概念 来 评价 我 们 
的 例子 ， 并 把 它们 与 更 一 般 化 的 评价 框架 联系 起 来 。 
对 于 包含 了 140 651 个 文档 的 单个 文档 批 ， 批 过 滤 等 价 于 排名 检索 。 我 们 可 以 使 用 2. 3 
节 中 介绍 的 任何 指标 ， 以 及 12 章 中 介绍 的 扩展 指标 。 在 单个 文档 批 上 采用 BM25 产生 结果 
为 P@10=0.1, P@1000=0. 04, AP=0. 053。 
如 果 需 要 考虑 多 个 文档 批 ， 一 个 直接 但 并 不 令 人 满意 的 方法 是 分 别 评价 每 批文 档 ， 然 后 
取 一 个 平均 结果 作为 综合 指标 。 这 个 方法 不 好 之 处 在 于 : 
© 当 我 们 把 文档 分 为 越 多 批 ， 每 批 包 含 的 文档 数量 (mn) 和 每 批 相 关 文 档 的 数量 
(| Rel|) 就 会 越 少 。 当 批 的 数量 足够 大 时 ， 很 多 批文 档 中 就 不 包含 相关 文档 了 即 
|Rel | 二 0)。 只 要 任何 一 个 文档 批 的 | Rel | 一 0， 那 平均 查 准 率 (AP) 就 没有 意义 
了 。 一 般 来 说 ， 任 何 依赖 于 | Rel | 的 指标 都 不 适用 于 小 文档 批 。 
。 如 P@k (precision at k) 这 样 的 指标 受 n 的 影响 很 大 。 因 此 ， 大 小 不 同 的 文档 批 的 
结果 就 不 能 相互 比较 。 
表 10-2 说 明了 这 些 问 题 。 当 文档 批 的 大 小 从 n=141 (1000 批文 档 ) 变化 到 n=28 140 
(5 批文 档 ) 时 ， 表 中 列 出 了 前 两 批文 档 的 AP 和 P@10， 以 及 所 有 | N/% 1] 个 分 批 上 的 平均 
44. XH, n=1 表示 只 有 一 批文 档 。 
表 10-2 面向 主题 的 批 过 滤 结 果 。 短 线 表 示 结果 没 定义 
第 一 批 












141 
281 
1407 
2814 
14 070 
28 140 
140 651 





[mit] AP | Pai | TRI 
0.1 0 




















0. 04 
0. 05 
0. 07 
0. 10 


214， 第 三 部 分 检索 和 排名 


大 多 数 文档 批 里 AP 没有 定义 是 因为 很 多 批文 档 中 都 不 包含 相关 文档 。P@10 和 AP 
(已 经 定义 ) 均 随 文档 批 的 大 小 变化 而 变化 ， 并 且 利 用 这 些 指 标 评价 这 些 方 法 只 能 从 中 得 到 
很 少 的 有 用 信息 ， 达 不 到 预期 目的 。 

当 使 用 大 小 不 同 的 文档 批 时 ，P@E 不 是 一 个 合适 的 指标 ， 因 为 对 于 任意 给 定 的 k， 检 
索 出 来 的 文档 的 数量 与 文档 批 的 数量 成 正比 。 考 虑 两 种 极端 情况 : 使 用 1000 批文 档 和 使 用 
1 批文 档 。 如 果 使 用 1000 批文 档 ， 那 么 P@10 就 是 从 每 批文 档 中 抽出 10 个 ， 总 共 向 用 户 展 
示 10 000 个 文档 时 的 查 准 率 。 如 果 只 有 1 批文 档 ，P@10 就 是 展示 给 用 户 10 个 文档 时 的 查 
准 率 。 一 种 更 合理 的 做 法 是 保持 从 所 有 文档 批 中 取出 并 呈现 给 用 户 的 文档 总 数 是 一 个 常数 。 


这 可 以 通过 计算 P@Lpn EI, HESKI 也 就 是 ， 假 设 呈 现 给 用 户 的 都 是 每 批文 档 中 
排名 靠 前 的 《是 一 个 得 分 ) 文档 ， 因 此 ， 在 整个 语料库 的 文档 集中 也 就 返回 了 同样 文档 。 为 
了 实现 目的 ， 选 用 p= 六 ， 其 中 ，N 是 语料库 的 大 小 ，% 是 呈现 给 用 户 的 文档 总 数 。 因 此 ， 


无 论文 档 批 的 大 小 n 是 多 少 ， 所 有 文档 批 上 的 平均 P@L 多 | 就 可 以 与 单 批文 档 的 P@k 进 


行 比较 了 。 表 10-3 列 出 了 P@M |, HH k 的 变化 范围 为 10 一 2000。 每 一 列 的 结果 都 基于 
同样 数量 的 返回 文档 。 由 这 张 表 可 以 看 出 ， 在 这 个 例子 中 ， 只 要 文档 批 的 大 小 足够 大 ， 使 得 
Lo j>>0， 那 么 平均 值 大 部 分 都 不 会 爱 文档 批 大 小 的 影响 。 


表 10-3 ”指定 大 小 的 面向 主题 的 批 过滤 的 P@K 


文档 批 数量 








P@Lon 假设 从 每 批文 档 中 都 取出 相同 比例 的 文档 呈现 给 用 户 。 这 个 假设 是 不 太 现 实 
的 ， 因 为 有 些 文档 批 可 能 比 其 他 的 文档 批 包含 更 多 的 相关 文档 。 但 这 个 情况 完全 是 很 偶然 ， 
或 者 因为 文档 是 按时 间 排 序 的 ， 所 以 很 自然 地 会 受到 时 事 的 影响 。 过 滤 系 统 调整 这 个 比例 变 
量 可 更 好 地 迎合 用 户 的 信息 需求 。 假 设 用 户 准备 以 平均 比率 p 去 检查 文档 集 ， 也 就 是 ， 逐 个 
检查 由 过 滤器 处 理 的 六 个 文档 中 的 oN 个 文档 。 如 果 从 每 批 中 恰好 返回 oN 个 文档 给 用 户 ， 
那么 查 准 率 不 会 得 到 改进 。 只 有 过 滤器 从 那些 它 认为 包含 了 更 多 的 相关 文档 的 文档 批 中 返回 
更 多 的 文档 给 用 户 时 ， 查 准 率 才 有 可 能 提高 。 

因为 BM25 算法 根据 相关 性 得 分 s 排名 文档 ， 所 以 我 们 也 可 以 不 使 用 每 批文 档 中 的 前 
Lon J 个 文档 ， 而 是 选择 对 于 固定 的 阐 值 t+， 文档 相关 性 得 分 st 上 的 那些 文档 。 总 的 来 说 ， 
t 越 大 返回 的 文档 越 少 ， 但 查 准 率 也 会 越 高 ， 反 之 亦 然 。 因 此 ， 对 于 任意 有 值 ， 都 存在 一 个 
t 值 ， 使 得 有 k=N 个 文档 的 相关 性 得 分 都 满足 s 之 上 。 姑 且 我 们 假设 对 于 任意 的 k 都 有 可 
能 事先 确定 一 个 合适 的 上 值 。 基 于 这 个 假设 ， 我 们 用 术语 累加 P@k (aggregate P@k) 来 
HRA TEER BA t 时 ， 总 共 返 回 & 个 文档 ( 见 表 10-4) 的 有 效 性 。 累 加 AP (aggregate 
AP) ， 就 是 按 正 常 方法 累加 得 到 的 P@ 衍生 出 来 的 。 正 如 我 们 所 期 望 的 那样 ， 每 一 列 的 结 
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果 几 乎 都 是 相同 的 。 它 们 之 间 的 差别 是 由 于 各 批文 档 间 的 IDF 值 的 微小 差别 而 造成 的 。 
R 10-4 面向 主题 批 过 滤 的 平均 结果 








文档 批 数量 n P@10 P@20 P@100 P@200 P@1000 P@2000 AP 
1000 141 0.2 0.10 0.07 0.08 0.04 0.02 0.058 
500 281 0.1 0.15 0.08 0.08 0.04 0.03 0.056 
100 1407 0.1 0.15 0.06 0.07 0.04 0.03 0.053 

. 50 2814 0.1 0.15 0.07 0.06 0.04 0.03 0.053 
10 14070 0.1 0.15 0.07 0.06 0.04 0.03 0.053 

5 28140 0.1 0.15 0.07 0.06 0.04 0.03 0.053 

1 140651 0.1 0.15 0.07 0.06 0.04 0.03 0.053 


Rin P@k 和 累加 AP 适用 于 建 模 现实 场景 ， 过 滤器 通过 设置 上 述 t 值 ， 可 满足 特定 用 
户 的 需求 。 它 们 也 可 为 另外 一 种 现实 场景 建 模 ， 每 批 的 结果 都 先后 进 和 人 到 一 个 优先 级 队列 
中 ， 用 户 可 以 随意 读 取 。 一 旦 所 有 的 文档 批 都 处 理 完 后 ， 累 加 P@k 就 是 优先 队列 中 前 k 个 
文档 的 查 准 率 ， 同 时 累加 AP 也 就 衡量 了 最 后 排名 结果 的 有 效 性 。 


10.1.2 ÆRE 


在 线 过 滤 类 似 于 批 大 小 为 n=1 的 批 过 滤 。 如 图 10-3 所 
示 ， 在 线 过 滤器 对 队列 中 的 每 个 信息 都 立刻 处 理 ， 而 不 是 对 一 
批 信息 进行 响应 。 被 视 为 是 相关 的 信息 都 分 发 给 用 户 ; 而 被 认 
为 是 不 相关 的 信息 就 全 部 被 丢弃 掉 。 分 发 中 介 可 能 是 一 个 文本 
信息 系统 ， 或 是 一 个 电子 邮件 系统 ， 或 者 是 一 个 便于 用 户 查 询 
的 结果 存档 。 这 个 中 介 的 特点 是 实时 、 具 备 存储 和 访问 的 
能 力 。 l 

正如 批 过 滤 一 样 ， 在 线 过 滤 需 要 在 查 准 率 和 查 全 率 间 找到 
一 个 平衡 点 。 一 般 来 说 ， 可 通过 返回 更 多 的 信息 给 用 户 ， 以 提 
高 查 全 率 而 牺牲 查 准 率 。 当 今 最 快 的 即时 通信 媒体 〔 如 手机 短 
D 都 具有 大 容量 存储 以 及 复杂 访问 的 能 力 ， 因 此 造成 限制 的 
是 用 户 处 理 这 些 信息 的 能 力 ， 而 不 是 媒体 。 如 果 可 能 , 一 个 好 
方法 是 按 优先 级 (prioritize) 将 这 些 信息 分 发 给 中 介 ， 就 像 一 
个 优先 级 队列 Cpriority queue) 一 样 。 正 如 排名 检索 一 样 ， 用 
户 检查 一 定数 量 高 优先 级 的 文档 ， 从 而 默认 地 决定 了 上 述 平 图 10-3 面向 主题 的 在 线 过 滤 
衡 点 。 

如 果 不 可 能 按 优先 级 排名 时 ， 有 必要 确定 一 个 合适 的 阐 值 t 使 得 分 发 适当 数量 的 文档 。 
我 们 设 定 合适 的 t+， 使 得 分 发 率 恰好 为 o〈 如 前 一 节 的 定义 ) ， 或 优化 某 个 可 以 在 查 准 率 和 查 
全 率 之 间 达 到 平衡 的 酒 数 〈 如 Fy). 

某 些 诸如 BM25 这 样 的 排名 检索 方法 中 的 相关 性 得 分 是 一 个 合适 的 优先 级 指标 ， 这 些 得 
分 基于 单个 文档 计算 。 在 这 里 BM25 不 是 很 合适 ， 因 为 它 依赖 于 词 频 Ni ， 而 词 项 数目 必须 
在 一 个 大 的 文档 集 上 计算 。 也 就 是 说 ， 我 们 可 将 BM25 用 于 一 个 只 包含 一 个 待 过 滤 文 档 的 文 
档 集中 (近似 于 空 );， 累 加 结果 并 不 比 批 过 滤 的 结果 差 多 少 ， 如 表 10-5 所 示 。 从 下 一 节 还 可 
以 看 到 ， 无 论 是 批 过 滤 还 是 在 线 过 滤 ， 通 过 使 用 历史 样本 ， 效 果 都 可 以 大 大 提高 。 
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表 10-5 在线 过 滤 与 面向 主题 的 批 过 滤 的 累加 结果 的 比较 。 第 一 行 来 自 表 10-4 
方法 P@10 P@20 P@100 P@200 = P@1000 P@2000 AP 





单 批文 档 过 滤 0.1 0.15 0. 07 0. 06 0. 04 0.03 0. 053 
在 线 过 滤 0.2 0. 15 0. 05 0.05 0. 03 0. 02 0. 041 


10.1.3 从 历史 样本 中 学 习 


一 般 来 说 ， 在 部 署 好 过 滤器 后 ， 从 同一 个 或 相似 的 文档 源 中 ， 总 可 以 得 到 一 些 可 用 的 历 
史 样 本 文档 。 回 顾 之 前 部 署 在 1993 年 及 之 后 的 金融 时 报 文档 上 的 过 滤器 。TREC45 文档 集 
中 也 包含 了 1992 年 及 之 前 的 金融 时 报 上 的 69 508 个 文档 ， 可 作为 历史 样本 。 

由 前 面 对 TREC 的 评价 结果 可 知 ， 这 些 历 史 样 本 中 有 22 个 是 与 主题 383 相关 的 。 但 这 
些 信 息 在 部 署 过 滤器 时 并 不 需要 知道 。 我 们 首先 考虑 不 带 相关 信息 的 历史 文档 ， 然 后 再 考虑 
如 何 利 用 这 些 信息 MRA) 去 大 大 地 提高 系统 的 有 效 性 。 

历史 样本 集 的 统计 信息 

对 于 批 过 滤 ， 使 用 历史 文档 的 最 简单 方法 也 许 就 是 用 它们 来 增加 每 批文 档 的 大小。 对 于 
给 定 的 某 批文 档 ， 历 史 文 档 与 其 他 文档 混合 在 一 起 ， 并 对 整个 文档 集 排名 。 然 后 ， 从 排名 列 
表 中 去 除 历史 文档 ， 就 得 到 每 批 中 的 待 过 滤 文 档 的 得 分 和 排名 。 采 用 这 个 方法 最 主要 的 效果 
就 是 能 得 到 一 些 更 好 的 文档 统计 信息 (尤其 对 IDF) ， 因 而 会 得 到 一 个 更 精确 的 相关 性 得 分 。 
另外 一 个 效果 就 是 不 再 返回 每 批文 档 中 国定 的 前 个 文档 ， 而 是 返回 出 现在 混合 排名 列表 
中 的 前 k >k 个 文档 。 如 果 某 批文 档 中 包含 更 多 得 分 较 高 的 文档 ， 那 返回 给 用 户 的 文档 也 
较 多 。 对 于 合适 的 kh"， 系 统 虽 然 返 回 的 文档 数 一 样 ， 但 查 准 率 会 更 高 。 

通过 使 用 历史 文档 可 有 效 地 把 在 线 过 滤 的 问题 转化 成 批 过 滤 的 问题 ， 使 得 只 需要 计算 每 
个 待 过 滤 文 档 的 得 分 ， 或 许 还 包括 它 在 历史 文档 集中 的 相关 排名 。 为 了 这 个 目的 ， 之 前 章节 
介绍 的 索引 结构 就 完全 用 不 上 了 。 需 要 用 来 计算 BM25 和 类 似 得 分 的 只 是 一 个 词典 ， 包 含 了 
每 个 词 项 出 现 的 文档 数 N; ， 如 果 得 分 理想 ,还 包括 一 个 历史 文档 得 分 的 有 序列 表 。 为 了 计 
算 相关 性 得 分 ， 我 们 简单 地 取出 相关 的 Nt 并 带 入 公式 ; 为 了 计算 排名 ， 我 们 则 在 历史 得 分 
列表 上 使 用 一 个 二 分 查找 。 

表 10-6 的 第 三 行列 出 了 在 线 过 滤器 上 使 用 历史 样本 集 的 统计 信息 后 对 累加 效果 的 影响 ， 
由 表 可 知 ， 累 加 效果 与 采用 批 过 滤器 的 效果 几乎 完全 相同 。 

表 10-6 ”在 面向 主题 在 线 过 让 的 累加 结果 中 历史 文档 集 统计 数据 的 影响 。 表 中 的 前 两 行 来 自 表 


10-5， 第 三 行 表示 一 个 使 用 了 历史 统计 数据 来 计算 IDF 值 的 过 滤器 的 效果 。 最 后 一 行 显 
示 的 效果 是 : 在 部 署 过 滤器 之 前 ， 通 过 BM25 的 相关 反馈 从 已 标记 训练 样本 中 抽取 的 








20 个 词 项 来 扩展 查询 得 到 的 结果 
方法 P@10 P@20 P@100 P@200 P@1000 P@2000 AP 
单 批文 档 0.1 0.15 0.07 0.06 0.04 0.03 0.053 
在 线 过 滤 〈 不 带 历史 统计 数据 ) 0.2 0.15 0.05 0.05 0.03 0.02 0.041 
PRE CSE IDF 数据 ) 0.1 0.15 0. 07 0. 06 0.04 0.03 0.054 
在 线 过 滤 CHT SEH IDF 数据 十 历史 训练 样本 ) 1.0 0.95 0.39 0.24 0.06 0.03 0.555 
历史 训练 样本 


因为 与 过 滤器 相关 的 信息 需求 是 持续 更 新 的 ， 所 以 相关 文档 的 样 例 是 已 知 的 或 者 不 难 获 
取 的 。 这 些 样 例 被 称 为 训练 样本 (training example) 或 标记 数据 (labeled data) 。 在 机 器 学 
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习 中 使 用 标记 数据 来 建立 分 类 器 的 方法 被 称 为 “监督 学 习 ”。 本 书 中 已 经 介绍 了 一 种 简单 的 
监督 学 习 方法 : BM25 相关 反馈 法 (参见 8. 6 节 )。 
前 面 已 经 提 到 ， 在 金融 时 报 的 历史 样本 集中 有 22 个 相关 文档 。 我 们 使 用 BM25 相关 反 
人 馈 法 从 这 些 相关 文档 中 选 出 最 合适 的 m=20 个 词 项 ， 并 用 这 些 词 项 来 扩展 来 自主 题 中 的 3 
个 词 项 。 利 用 这 些 词 项 ， 在 每 个 文档 上 使 用 BM25 计算 各 自 的 得 分 ， 正 如 在 线 过 滤器 一 样 。 
表 10-6 的 最 后 一 行列 出 了 上 述 监 督学 习 方法 的 累加 结果 。 第 一 列 和 最 后 一 列 的 结果 并 
不 是 印 错 了 : 对 于 这 个 特别 任务 ， 采 用 历史 训练 样本 会 使 P@10 和 AP 均 得 到 10 入 的 提高 。 


10.1.4 语言 分 类 


从 表 10-7 的 60 个 语言 版 本 的 维基 百科 中 ， 我 们 通过 “random article” 链 接 抓 取 了 
8012 篇 文章 ， 然 后 从 每 篇 文章 正文 中 抽取 出 前 50 字 节 的 内 容 〈 见 表 10-1)。 现 在 考虑 分 类 
与 过 滤 的 对 偶 问 题 : 

。 分 类 (categorization): 给 定 一 个 文档 d 和 一 个 可 能 的 类 别 集 ， 确 定 文 档 a 所属 的 类 

别 〈 或 类 别 集 ) 。 分 类 可 简化 为 类 别 排 名 (category ranking) ， 即 根据 各 类 别 包 含 该 
文档 的 可 能 性 对 各 个 类 别 进行 排名 。 

。 过 滤 (filtering): 给 定 一 个 类 别 c, WERF c 的 文档 。 过 滤 可 简化 为 文档 排名 

(document ranking) ， 即 根据 各 文档 属于 该 类 别 的 可 能 性 对 各 个 文档 进行 排名 。 


表 10-7 维基 百科 60 个 语言 版 本 的 标签 











标签 语言 标签 语言 
ang EA Me i 芬兰 语 nn 新 挪威 语 
ar 阿拉 伯 语 法 语 no 挪威 语 
az 阿塞拜疆 语 希 伯 来 语 pa 旁遮普 语 
bg 保加利亚 语 i 印 地 语 pl 波兰 语 
bn 孟加拉 语 克罗地亚 语 Pt 葡萄 牙 语 
bpy 比 什 奴 普 莱 利 亚 语 匈牙利 语 ro 罗马 尼 亚 语 


br 布 列 塔 尼 语 i 印度 利 西亚 语 ru 俄语 
bs 波斯 利 亚 庄 i simple 初级 英语 
ca 加 泰 罗 尼 亚 语 sk 斯 洛 伐 克 语 





cs 捷克 语 sl 斯 洛 文 尼 亚 语 
cy 威尔士 语 sq 阿尔 巴 尼 亚 语 
da 丹麦 语 sr 塞尔维亚 语 
de 德语 sv 瑞典 语 

el 希腊 语 ta 泰 米尔 语 
en 英语 th 泰语 

eo 世界 语 tr 土耳其 语 

es 西班牙 语 uk 乌克兰 语 

et 爱沙尼亚 语 vi 越南 语 
eu 巴 斯 克 语 尼泊尔 语言 yo 约 鲁 巴 语 

fa 波斯 语 荷兰 语 zh 中 文 





在 我 们 的 例子 中 ， 文 档 就 是 摘自 维基 百科 的 文章 片段 ， 类 别 就 是 各 种 语言 。 根 据 定 义 ， 
我 们 例子 中 的 文档 只 能 属于 一 个 类 别 ， 由 它 来 源 的 维基 百科 的 语言 版 本 而 定 。 在 其 他 一 些 场 
合 中 ， 考 虑 一 个 文档 属于 若干 个 类 别 也 是 有 意义 的 ， 例 如 ， 一 种 文档 可 能 包含 若干 种 语言 5 
一 种 语言 有 多 种 方言 。 如 果 处 理 的 是 整 篇 文章 ， 那 么 判定 是 哪 种 语言 就 比较 直观 了 (Me 
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Namee，2005)， 但 在 我 们 的 例子 中 ， 我 们 有 意 将 范围 限制 在 短 的 文章 片段 上 。 

当 我 们 需要 路 由 信息 或 将 文档 组 织 为 特定 语言 的 文档 集 时 ， 会 遇 到 语言 分 类 问题 。 这 些 
问题 都 不 能 现成 地 用 一 个 可 由 搜索 引擎 处 理 的 查询 来 表示 。 相 反 ， 我 们 完全 依赖 训练 样本 来 
获得 信息 需求 。 现 在 ,我 们 任 取 4000 个 文章 片段 作为 历史 样本 ， 把 剩 下 的 4012 个 文章 片段 
作为 分 类 或 过 滤 的 对 象 。 在 机 器 学 习 阶 段 ， 历 史 样 本 构成 了 一 个 训练 集 (training set), Al 
下 的 则 是 测试 集 (test set)。 最 终 目 标 是 分 类 或 者 过 滤 一 个 远 远大 于 测试 集 的 样本 集 ， 测 试 
集 可 视 为 是 一 个 例子 〈sample) ， 用 于 在 更 大 的 数据 集 上 评估 分 类 器 的 有 效 性 。 

可 以 使 用 带 历史 样本 的 面向 主题 过 滤 的 方法 实现 过 滤 和 文档 排名 。 我 们 把 每 种 语言 看 做 
一 个 独立 的 主题 ， 然 后 运用 BM25 相关 反馈 法 (参见 8. 6 节 )。 在 这 个 例子 中 ， 把 在 一 个 主 
题 语言 中 的 每 个 训练 片段 都 视 为 一 个 “相关 文档 ”。 对 于 某 种 给 定 的 语言 ， 我 们 从 训练 片段 
中 构造 出 一 个 查询 ， 将 每 字 节 4-gram 作为 一 个 查询 词 项 。 

表 10-8 给 出 了 应 用 BM25 到 每 个 语言 上 作为 60 个 过 滤 问 题 得 到 的 AP 结果 和 整体 
MAP。 用 普通 的 搜索 标准 来 看 ，MAP 一 0.78 已 经 是 非常 高 的 了 ， 但 仍然 不 能 反映 出 将 
BM25 用 于 分 类 问题 的 (实际 》 效 果 。 


表 10-8 采用 BM25 且 词 项 选 自 4000 个 训练 样本 的 60 种 语言 过 滤 问 题 的 AP 结果 























标签 AP | 标签 AP 标签 AP 
ang 09I ar 0.99 az 0.53 
bg 0.67 bn 0.84 bpy 0.81 
br 0.94 bs 0.48 ca 0.70 
cs 0.67 cy 0.95 da 0.40 
de 0.76 el 1.00 en 0.59 
eo 0.72 es 0.67 et 0.45 
eu 0.82 fa 0.95 fi 0.85 
fr 0.79 he 1.00 hi 0.72 
hr 0.47 hu 0.75 id 0.67 
is 0.93 it 0.79 ja 0.94 
ka 0.99 ko 1.00 la 0.79 
1b 0.97 lt 0.82 mk 0.81 
mr 0.86 ms 0.68 new 0.91 
nl 0.84 nn 0.63 no 0.45 
pa 0.96 pl 0.83 pt 0.83 
ro 0.92 “ru 0.75 simple 0.54 
sk 0.75 sl 0.59 sq 0.60 
sr 0.68 sv 0.76 ta 0.97 
th 1.00 tr 0.82 uk 0.84 
vi 0.96 yo 0.63 j zh 0.87 
MAP; 0.78 





为 了 解决 分 类 问题 ， 我 们 不 应 对 文档 排名 ， 而 必须 对 语言 排名 ， 同 时 为 每 个 文档 计算 这 
个 排名 。 可 以 使 用 文档 排名 中 的 相关 性 得 分 。 给 定 文档 d 和 语言 1, std, DX d 在 i 语 
言 中 的 文档 排名 中 的 相关 性 得 分 。 现 在 考虑 两 种 语言 h Ml, ABE s(d, 1,)>s(d, hX 
示 文 档 d 是 用 语言 ti 书写 的 可 能 性 比 用 语言 lL. 书写 的 可 能 性 大 。 在 这 个 假设 下 ，8(4Q，7) 
也 是 语言 ! 关于 文档 a 在 分 类 排名 中 的 相关 性 得 分 。 | 

一 次 显示 所 有 的 4012 个 分 类 是 不 可 行 的 。 表 10-9 展示 了 一 个 例子 对 于 德国 维基 百科 
摘录 的 一 个 文本 片段 的 所 有 语言 排名 。 我 们 看 到 正确 分 类 (=de) 排 在 首位 ， 其 他 与 德语 
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类 似 的 分 类 一 一 日 耳 曼 语言 一 一 排 在 那些 与 德语 不 相似 的 分 类 之 前 ， 例 如 亚洲 语言 。 严 格 的 
分 类 问题 定义 就 只 会 有 一 个 相关 结果 : 正确 的 分 类 。 其 余 的 均 不 相关 。 


表 10-9 表 的 最 上 面 给 出 了 德 文 片段 的 语言 排名 (正确 标签 : de)。s(d, 中) 指 给 定语 言 的 BM25 得 分 
Werner Haase (*2. August 1900 in Köthen (Anhalt 








. da 33.6 
no 29.1 tr 19.4 
sk 18.5 bs 16.4 
la 14.7 et 13.2 
fi 13.0 cy 12.0 
is 11.8 simple 10.4 
nl 9.3 yo 7.1 
sv 6.0 ru 5.0 
ro 4.6 lt 3.9 
el 3.4 az 2.4 
sr 2.4 ms 1.7 
fr 14 vi 0.0 
uk 0.0 ta 0.0 
pt 0.0 new 0.0 
mr 0.0 ko 0.0 
ka 0.0 it 0.0 
id 0.0 hi 0.0 
he 0.0 eu 0.0 
ca 0.0 bpy 0.0 
bn 0.0 ar 0.0 














AP (RR): 1.00 


表 10-10 列 出 了 4012 种 语言 排名 的 整体 综合 指标 。 在 该 表 中 ，P@1 一 般 被 称 为 准确 率 
(accuracy) :正确 分 类 的 文档 〈 排 第 一 位 ) 的 比例 。MAP 等 价 于 平均 倒 排名 值 (mean re- 
ciprocal rank，MRR) ， 每 个 排名 列表 中 只 有 一 个 是 相关 的 〈 参 见 12. 1. 5 节 )。 对 于 单个 主 


题 ， 倒 排名 值 定 义 为 RR 一 二， 其 中 7 指 第 一 个 (也 是 唯一 一 个 ) 相关 结果 的 排名 。 因 为 
AP=P@r=—, 其 中 RR=AP, MRR=MAP, 
表 中 结果 可 用 微 平均 (micro-average) 和 宏 平均 (macro-average) KER, 定义 如 下 ，: 


。 微 平均 : 所 有 文档 上 的 综合 指标 ， 不 分 类 别 。 
。 宏 平均 :分别 为 每 个 类 别 计算 的 平均 综合 指标 。 
表 10-10 4012 个 文本 片段 上 关于 语言 排名 的 综合 度量 。P@1 等 价 于 准确 率 : 被 正确 分 类 


的 文本 片段 的 比例 。MAP 等 价 于 MRR， 因 为 问题 的 定义 为 : 对 于 每 个 文本 片段 ， 
只 有 一 种 “相关 ”语言 





准确 率 (P@1) REE (1- 准 确 率 ) MRR (MAP) 
微 平均 0. 79 0. 21 0. 860 
RFI 0. 79 0. 21 0. 857 


在 这 个 例子 中 ， 微 平均 和 宕 平均 的 差别 很 小 ， 因 为 测试 集中 每 种 语言 的 文档 数量 几乎 都 
是 一 样 的 。 当 样本 数 不 同 或 各 类 别 的 排名 效果 不 同时 ， 微 平均 和 宏 平均 间 才 有 可 能 出 现 较 大 
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的 差别 。 为 了 说 明 这 个 差异 ， 我 们 把 用 于 计算 综合 指标 的 文档 集 从 原来 的 测试 集 扩展 到 整个 
维基 百科 。 

| 表 10-11 列 出 了 每 个 版 本 的 维基 百科 上 的 部 分 文章 及 其 上 的 MRR。 和 名 个 版 本 的 大 小 相 
差 甚 远 ， 最 大 的 版 本 〈 黄 文 ) 比 其 他 版 本 包含 的 文章 数 要 多 得 多 ， 但 其 MRR 只 是 一 般 水 平 
《0. 71) 。 这 个 测试 集 的 最 终结 果 ， 微 平均 MRR 要 小 于 宏 平均 MRR (0. 82 : 0. 86) 。 在 其 他 
应 用 中 ， 如 垃圾 信息 过 滤 ， 这 个 差别 就 更 重要 了 。 总 的 来 说 ， 宏 平均 与 每 个 类 别 的 文档 比例 
无 关 ， 而 微 平 均 则 是 该 比例 的 加 权 。 为 了 把 微 平 均 从 一 个 文档 集 扩 展 到 另外 一 个 文档 集 ， 需 
要 知道 文档 比例 和 与 类 别 相关 的 综合 得 分 。 微 平均 与 宏 平 均 的 差别 对 不 同 分 类 来 说 是 特定 
的 ， 当 运用 到 搜索 结果 时 ，MAP 和 其 他 综合 指标 就 是 宏 平均 了 。 


R 10-11 扩展 到 60 个 语言 版 本 的 维基 百科 内 容 中 的 语言 分 类 结果 。“ 多 ”列表 示 某 个 版 本 
的 维基 百科 上 的 文章 的 比重 。 某 些 版 本 (如 英文 ) 包含 比 其 他 版 本 多 得 多 {如 冰 
BiB) 的 文档 


























MRR, 0. 82/0. 86《 微 平均 / 宏 平 均 } 





10.1.5 ”在 线 自 适应 垃圾 邮件 过 滤 系 统 


图 10-4 画 出 了 我 们 在 第 三 个 和 最 后 一 个 例子 中 提 到 的 垃圾 过 滤 问 题 的 场景 。 过 滤器 收 
到 邮件 流 ， 并 将 它们 顺序 分 发 到 用 户 的 收 件 箱 或 一 个 隔离 的 文件 中 。 收 件 箱 中 的 信息 可 供用 
户 按时 间 顺 序 阅 读 ， 为 了 找到 被 过 滤器 错误 分 发 的 有 用 信息 〈 非 垃圾 邮件 )， 用 户 偶尔 也 搜 
索 一 下 隔离 文件 。 在 以 上 两 个 操作 中 ， 当 用 户 在 收 件 箱 中 发 现 垃圾 邮件 或 在 隔离 文件 中 找到 
有 用 信息 时 ， 便 可 向 过 滤器 反馈 。 在 这 个 应 用 中 ， 把 收 件 箱 视 为 一 个 简单 的 队列 ， 而 把 垃圾 
箱 视 为 一 个 优先 队列 〈 即 一 个 动态 更 新 的 有 序 队列 ) 会 比较 有 效 。 
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我 们 使 用 TREC 2005 公开 垃圾 邮件 语料库 ， 共 有 92 180 个 信息 ， 其 中 39 399 个 是 垃 


圾 信息 ，78 7988 个 是 有 用 信息 。 我 们 不 把 这 些 
信息 分 成 训练 集 与 测试 集 ， 而 是 采用 一 种 在 线 
反馈 法 (on-line feedback), 假设 有 一 个 理想 的 
(ideal) 用 户 会 检测 并 报告 所 有 的 错误 。 在 这 个 
假设 前 提 下 ， 每 个 信息 都 能 在 分 发 后 作为 一 个 
历史 训练 样本 :那些 被 报告 有 错 的 信息 假设 属 
于 用 户 指定 的 类 别 ， 那 些 没有 报错 的 信息 假设 
已 被 过 滤器 正确 分 类 。 尽 管 这 个 完美 用 户 的 假 
设 是 不 存在 的 ， 可 是 我 们 可 以 将 其 作为 比较 评 
价 结果 的 基准 。 

在 线 自 适应 过 滤 可 通过 TREC 垃圾 过 滤器 
评估 工具 包 实 现 ， 测 斌 工具、 测试 语料库 和 样 
本 过 滤器 都 可 从 网 上 9 下 载 。 尽 管 该 工具 包 所 使 
用 的 类 别 刚好 也 是 命名 为 垃圾 信息 (spam) 和 
有 用 信息 (ham) ， 但 是 它 适 用 于 任何 在 线 二 元 
分 类 (on-line binary categorization) 任务 。 本 
章 所 有 的 例子 都 可 使 用 该 工具 包 。 为 了 使 用 该 
工具 包 评 估 ， 过 滤器 必须 先 实现 表 10-12 中 详细 
列 出 的 5 条 命令 。 

作为 一 个 能 说 明 问 题 的 例子 ， 我 们 再 次 使 
用 BM25， 建 立 一 个 在 线 自 适应 垃圾 信息 过 滤 


输入 邮件 





图 10-4 在 线 垃圾 邮件 过 滤器 的 部 署 


器 。 我 们 再 次 强调 这 并 不 是 BM25 的 典型 应 用 ,但 它 为 本 章 后 面 要 讨论 的 技术 提供 了 一 个 坚 
实 的 基础 。 垃 圾 信息 过 滤 是 一 个 二 元 分 类 (binary categorization) 的 例子 ， 因 为 只 有 两 个 不 
同 的 类 别 ， 根据 定义 ， 每 个 信息 只 能 属于 其 中 一 个 类 别 。 与 前 面 的 例子 不 同 ， 垃 圾 信息 过 滤 
中 并 没有 主题 信息 也 没有 历史 样本 。 训 练 样本 从 在 线 反馈 中 获得 。 一 开始 过 滤器 没有 任何 信 
息 可 作为 决策 基础 ， 但 随 着 已 处 理 信息 越 来 越 多 ， 过 滤器 就 学 会 了 区 分 类 别 的 信息 特征 。 在 
训练 过 程 中 过 滤器 提高 的 速度 和 行为 被 称 为 学 习 曲 线 (learning curve), 


表 10-12 TREC 垃圾 邮件 过 滤器 评估 工具 包 的 命令 。 为 了 在 这 个 工具 包 框 架 内 评价 一 
个 过 滤器 ， 该 过 滤器 必须 顺序 调用 表 中 的 5 条 命令 





命令 过 滤器 操作 
initialize 创建 一 个 过 滤器 来 处 理 一 个 新 的 信息 流 
classify file 为 file 中 的 信息 返回 一 个 类 别 以 及 优先 级 得 分 
train spam file file 作为 一 个 垃圾 信息 的 历史 样本 
train ham file 将 file 作为 一 个 有 用 信息 的 历史 样本 
finalize 关闭 过 滤 知 





© trec nist. gov/data 
© plg. uwaterloo. ca/~gvcormac/jig 
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这 里 使 用 的 基准 方法 与 前 面 语言 分 类 所 使 用 的 方法 是 一 样 的 。 分 别 对 每 个 文档 使 用 带 相 
关 反 馈 的 BM25 计算 相关 性 排名 : 根据 每 个 文档 的 两 个 得 分 s(q，spam) 和 s (qd ，ham) 来 判 
定 是 垃圾 信息 还 是 有 用 信息 。d WSRIFES hA s(d)=s(d, spam)—s(d, hm RE. 
如 果 s(d)> 盖 0， 那 就 认为 该 信息 是 垃圾 信息 ， 和 否则 是 有 用 信息 。 

与 以 前 做 法 一 样 ， 查 询 词 项 都 是 从 已 标记 为 垃圾 信息 或 有 用 信息 的 信息 中 提取 出 来 的 字 
节 4-gram。 就 像 过 滤 过 程 一 样 ， 我 们 为 垃圾 信息 和 有 用 信息 分 别 构 造 和 维护 查询 。 当 获得 
反馈 后 ， 在 合适 的 查询 中 添加 新 的 词 项 并 更 新 DF 值 。 两 个 类 别 的 查询 初始 化 都 为 空 ， 得 
分 都 为 0， 但 当 越 来 越 多 的 信息 被 处 理 后 ， 它 们 的 得 分 就 会 迅速 增长 。 与 前 面 的 实验 不 同 ， 
我 们 不 限制 添加 到 每 个 查询 中 的 反馈 词 项 的 数量 ， 人 允许 查询 无 限制 地 增长 。 

为 了 进行 在 线 排名 ， 得 分 s(Cd) 可 作为 一 个 优先 级 。 表 10-13 中 给 出 的 文档 排名 问题 的 
有 效 性 指标 ， 并 没有 为 我 们 的 预期 目的 垃圾 过 滤 ) 提供 太 多 的 信息 。 概 括 说 来 ， 是 因为 搜 
索 的 目的 在 于 确定 有 用 的 文档 ， 如 P@k 和 AP 等 有 效 性 指标 反馈 给 系统 的 是 最 容易 分 类 的 
那些 文档 。 这 些 度量 无 法 告诉 我 们 过 滤器 对 于 那些 难以 分 类 的 文档 的 效果 如 何 ， 但 这 才 是 垃 
圾 信息 过 滤器 效果 的 关键 所 在 。 


R 10-13 ”垃圾 信息 过 滤 中 文档 排名 问题 的 有 效 性 指标 。 这 三 行 分 别 给 出 了 使 用 独立 的 
垃圾 信息 相关 性 得 分 、 有 用 信息 相关 性 得 分 以 及 它们 的 差 值 的 效果 








相关 性 得 分 PQlo PG@20 P@100 P@200 P@1000 P@2000 AP 
s(d, spam) 1 1 1 1 1 1 0.991 8 
s(d, ham) 1 1 1 1 1 1 0.990 6 
s(d, spam) — s(d, ham) 1 1 1 1 1 1 0.992 7 
i 一 


一 个 在 线 垃 圾 过 滤器 中 主要 的 分 类 问题 的 有 效 性 指标 如 表 10-14 所 示 。 因 为 只 有 两 个 类 
别 ， 所 以 倒 排名 值 也 是 多 余 的 ， 不 需要 列 出 。 为 了 计算 过 滤器 的 包 值 ， 假 设 所 有 垃圾 信息 
SRT MES. EE GORE) 文献 中 的 基本 假设 。 当 你 发 现 没 有 明确 说 明 查 全 
率 和 查 准 率 是 对 应 有 用 信息 还 是 垃圾 信息 的 ， 你 都 可 以 假设 作者 是 把 垃圾 信息 作为 相关 类 的 
《 即 文献 中 报告 的 查 全 率 和 查 准 率 都 是 对 应 垃圾 信息 而 言 的 一 一 译 者 注 )。 


10-14 ”在 一 个 在 线 垃圾 过 滤器 中 主要 的 分 类 问题 的 有 效 性 指标 (面向 信息 检索 ) 








类 别 准确 率 (P@1) RRE (% ) 查 准 率 查 全 率 Fy 
SAB. 0. 999 89 0. O11 0. 803 08 0. 999 89 0. 890 74 
有 用 信息 0. 671 49 32. 860 0.999 77 0. 671 49 0. 803 39 
微 平均 0. 859 54 14. 055 0. 859 45 0. 859 54 0. 859 54 
EFH 0. 835 69 16. 431 — — 0. 847 07 
Logit 平均 0. 992 60 0. 740 一 一 0. 852 33 


由 表 10-14 可 知 ， 垃 圾 信息 的 准确 率 〈P@1) 很 高 ， 出 现 了 大 量 接近 完美 的 结果 ， 令 人 
难以 理解 。 以 百分比 的 形式 展示 误 检 率 (1 一 P@1)， 看 起 来 更 方便 与 直观 。 评 价 过 滤器 的 
有 效 性 时 ， 很 容易 看 出 误 检 率 为 0. 1% 的 过 滤器 比 误 检 率 为 1% 的 过 滤器 性 能 要 好 10 f. 
然 准确 率 为 0. 999 的 过 滤器 要 比 准 确 率 为 0. 990 的 过 滤器 好 10 倍 ， 但 还 需要 心算 和 计算 大 
量 正确 的 值 。 回 到 刚才 那个 例子 中 ， 垃 圾 邮件 的 误 检 率 为 0.01% 意味 着 10 000 THR 
中 有 1 个 会 被 分 发 到 用 户 的 收 件 箱 中 。 而 有 用 信息 的 误 检 率 为 32. 9% 就 意味 着 大 约 1/3 的 
有 用 信息 被 放 到 垃圾 箱 中 。 用 户 很 难 接受 这 样 的 误 操 作 ， 但 如 果 情 况 相 反 〈 指 1/3 的 垃圾 邮 
件 被 放 到 收 件 箱 -一 一 译 者 注 ) ， 则 用 户 可 能 还 可 以 接受 。 如 果 有 用 信息 的 误 检 率 是 0.01%, 
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而 垃圾 信息 的 误 检 率 是 32. 9 多 ， 那 意味 着 过 滤器 会 把 大 量 的 有 用 信息 分 类 到 用 户 的 收 件 箱 
中 ， 并 过 滤 掉 2/3 的 垃圾 信息 。 | 

综合 统计 指标 ， 无 论 是 微 平 均 还 是 宏 平 均 ， 它 们 都 无 法 反映 出 某 个 指定 类 别 的 误 检 率 。 
并 且 ， 微 平均 对 整体 中 垃圾 信息 的 比例 非常 敏感 。 例 如 ， 假设 垃圾 信息 的 数量 加 倍 ， 而 有 用 
信息 的 数量 、 过 滤器 有 用 信息 和 垃圾 信息 的 误 检 率 均 不 变 。 那 微 平 均 误 检 率 会 从 14% 降 到 
8.9% 。 过 滤器 的 有 效 性 提高 了 吗 ? 当然 没有 。 微 平均 把 垃圾 信息 的 普遍 度 (prevalence) 与 
过 滤器 的 属性 视 为 同等 重要 。 

logit 平均 Clogit average, LAM) 是 在 logit 变换 (MAR 〈10-38)) 下 的 宏 平均 ， 


_ 1,1 { logit(x) + logit(y) 
lam (2, y) = logit (eRe) Slee) 


从 直觉 上 来 说 ， 这 个 均值 将 得 分 解释 为 概率 ， 并 根据 它们 贡献 的 权重 把 它们 结合 起 来 。 
在 logit 平均 下 ， 得 分 0. 1 与 0. 01 的 差 与 得 分 0. 9 与 0. 99 的 差 所 产生 的 效果 是 一 样 的 。 从 
某 种 意义 上 说 ， 这 些 对 值 都 代表 了 效果 上 一 个 数量 级 的 差异 。 而 0.5 与 0.51 间 的 差异 几乎 
不 带 来 什么 影响 。Cormack (2008) 基于 比值 比 (odds ratio) 给 出 了 LAM 的 更 一 般 的 推导 
(参见 10. 2. 1 节 )。 

查 准 率 和 查 全 率 ， 以 及 基于 它们 的 其 他 综合 指标 ， 都 很 难 用 于 解释 过 滤 任 务 且 受 普遍 度 
的 严重 影响 。 对 于 垃圾 信息 过 滤 ， 为 了 计算 查 准 率 和 查 全 率 ， 我 们 必须 先 任意 假定 垃圾 信息 
或 有 用 信息 是 “相关 的 ”。 一 般 会 假设 垃圾 信息 是 “相关 的 ”， 表 10-14 列 出 了 在 这 一 假设 下 
的 查 准 率 和 查 全 率 。 注 意 到 微 平均 查 准 率 和 查 全 率 是 多 余 的 ， 它 们 均等 价 于 准确 率 。 很 容易 
证 明 ， 无 论 类 别 是 否 是 互 斥 的 ， 这 个 等 价 关 系 都 会 成 立 正如 我 们 垃圾 信息 过 滤 和 语言 分 
类 的 例子 一 样 。 宏 平均 查 准 率 和 查 全 率 分 开 是 没有 什么 意义 了 ， 但 合 在 一 起 可 以 计算 如 F 
这 样 的 综合 查 全 率 / 查 准 率 指标 的 宏 平 均值 ， 正 如 表 10-14 所 示 。 在 这 里 ， 我 们 很 难 对 查 准 
率 、 查 全 率 或 FL 给 出 一 个 有 意义 的 解释 ， 所 以 建议 在 考察 过 滤 任 务 时 ， 避 免 使 用 它们 作为 
评价 指标 。 


10.1.6 ”二 元 分 类 的 阐 值 选择 . 


当 把 某 排名 方法 ， 如 BM25， 用 于 二 元 分 类 时 ， 阔 值 t 的 选择 会 直接 影响 到 这 两 个 类 别 
的 误 检 率 。 在 垃圾 信息 过 滤 的 例子 中 ， 我 们 把 sCd) 之 0 的 信息 标记 为 垃圾 信息 ， 而 剩 下 的 
都 标记 为 有 用 信息 。 这 里 ， 我 们 用 上 代替 0， 标 记 sCd) 之 的 信息 为 垃圾 信息 ， 其 他 为 有 用 
信息 。 表 10-15 给 出 了 不 同 的 土 值 对 应 的 误 检 率 。 


R 10-15 ”了 贿 阔 值 设置 函数 变化 的 垃圾 信息 和 有 用 信息 的 误 检 率 


(10-1) 











n 二 ”一 一 一 一 一 
WE t 垃圾 信息 误 检 率 。” 有 用 信息 误 检 索 宏 平均 误 检 率 平均 误 检 率 AER Fl 
2156 56. 8% 0. 0% 28. 4% 1.1% 0. 66 
1708 36. 2% 0.1% 18. 2% 2. 3% 0.79 
1295 10. 0% 0. 4% 5.2% 2. 0% 0. 94 
1045 2. 2% 1. 0% 1. 6% 1.5% > 0. 98 
931 1. 0% 2. 8% 1.9% 1.7% 0. 98 
713 0. 1% 10. 0% 5.1% 1.0% 0. 95 
—180 0. 0% 34. 9% 17. 4% 0.7% 0. 84 


可 以 看 出 ， 阐 值 本 身 是 没什么 意义 的 ， 但 是 大 的 阔 值 产生 较 低 的 有 用 信息 误 检 率 ， 而 牺 
” 牲 了 高 垃 瓜 信息 误 检 率 ， 反 之 亦 然 。 对 于 某 个 阐 值 +， 受 试 者 工作 特征 曲线 (receiver oper- 
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ating characteristic curve, ROC) WARA (w, y) 组 成 ， 其 中 的 x 表示 垃圾 邮件 的 误 
RR, l—y 表示 正常 邮件 的 误 检 率 I y 表示 正常 邮件 的 准确 率 ) 。ROC 曲线 从 几何 角度 
描述 了 过 滤器 有 效 性 ， 并 且 独 立 于 阔 值 ， 同 样 地 ， 查 全 率 - 查 准 率 曲 线 描述 了 排名 检索 的 有 
效 性 ， 并 且 也 独立 于 任何 截断 参数 。 

在 线性 坐标 下 画 出 ROC 曲线 (参见 图 10-5). 并 不 能 很 直观 地 反映 出 过 滤器 的 性 能 : 
曲线 太 贴 近 于 x 和 4 轴 。 因 此 图 10-6 就 提供 了 一 个 logit 变换 后 的 曲线 。 如 果 调 整 t+ 以 达到 
某 个 有 用 信息 的 误 检 率 ， 那么 从 曲线 中 很 容易 就 可 以 确定 对 应 的 垃圾 信息 的 误 检 率 ， 反之 亦 
然 。 也 可 以 用 这 个 曲线 来 比较 过 滤器 。 如 果 一 条 曲线 在 另 一 条 曲线 之 上 ， 表 示 这 条 曲线 代表 
的 过 滤器 比 另 一 个 要 好 。 如 果 曲 线 相交 ， 就 要 根据 垃 攻 信 息 误 检 率 和 有 用 信息 误 检 率 的 相对 
重要 性 来 判断 哪个 更 好 。 为 了 进行 比较 ， 我 们 在 相同 的 数据 集 上 对 比 了 BM25 得 到 的 结果 与 
当前 流行 的 SpamAssassin® (版 本 为 3.02， 采 用 默认 参数 值 ) 得 到 的 过 滤 结 果 。 可 以 看 到 
BM25 在 大 部 分 区 间 都 比 SpamAssassin 要 好 ， 但 在 低 有 用 信息 误 检 率 时 曲线 相交 了 ，Spam- 
Assassin 要 稍微 好 一 点 。 


D 


è B 


HRR RRR (%) 
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60 
有 用 信息 误 检 率 (%) 
图 10-5 ”线性 坐标 下 基于 BM25 的 垃圾 信息 过 滤器 的 ROC 曲线 
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图 10-6 SpamAssassin 和 基于 BM25 的 垃圾 邮件 过 滤器 在 对 数 坐 标 下 的 ROC 曲线 


© spamassassin. apache. org 


第 10 章 分 类 和 过 滤 。225 


ROC 曲线 下 的 面积 (area under the ROC curve, AUC 或 ROCA) 是 0 一 1 之 间 的 一 个 
数 ， 可 作为 阔 值 独立 的 过 滤器 的 性 能 指标 。ROC 曲线 越 高 ， 则 其 AUC 值 越 大 。 除 了 几何 意 
义 外 ，AUC 还 有 概率 意义 。 它 是 一 个 随机 选取 的 垃圾 信息 比 一 个 随机 选取 的 有 用 信息 的 得 
分 高 的 概率 ; 

AUC = Prls(di) > s(d2)| dı € spam, d2 € ham] (10-2) 

我 们 的 BM25 过 滤器 的 AUC=0. 998 1。 为 了 方便 ， 把 ROC 曲线 上 部 “above》 的 面积 
用 百分比 来 表示 : 1—AUC=0. 189 6% XF SpamAssassin, 1—AUC=0. 516 3%, 

在 评价 前 已 经 设 定好 阔 值 的 情况 下 ，ROC 曲线 就 只 包含 一 个 点 ‘x%，Y)， 因 此 AUCH 
定义 。 在 这 种 情况 下 ，logistic 平均 值 LAM 提供 了 一 种 综合 指标 ， 该 指标 对 阅 值 的 敏感 程 
度 要 比 其 他 指标 小 ， 如 表 10-15 所 示 。 微 平均 误 检 率 、 宏 平均 误 检 率 和 Fi 受 阔 值 的 影响 很 
大 一 一 所 以 很 少 用 它们 作为 评价 标准 。 

如 果 使 用 历史 数据 训练 过 滤器 ， 一 个 简单 合理 的 做 法 是 尝试 使 用 多 个 阐 值 上 来 获得 垃圾 
信息 误 检 率 和 有 用 信息 误 检 率 之 间 的 理想 平衡 点 。 在 一 个 带 反 馈 的 在 线 设 置 过 程 中 ， 如 果 有 
用 信息 误 检 率 过 高 ， 可 通过 小 幅 增加 t 的 值 来 进行 动态 调整 ， 反 之 也 可 减 小 t+。 但 是 形式 化 
“理想 平衡 点 ”是 不 容易 的 ， 在 很 多 情况 下 ， 最 好 还 是 由 用 户 指定 阔 值 ， 无 论 是 显 式 的 还 是 
隐 式 的 。 用 户 界面 应 可 让 用 户 输入 阔 值 调整 〈 例 如 ， 一 个 从 “展示 少量 ”到 “展示 更 多 ”的 
滚动 条 ， 或 一 组 标 有 “严格 过 滤 ”、“ 适 度 过 滤 ”、“ 不 过 滤 ” 的 按钮 ) 。 或 者 可 要 求 用 户 为 每 
个 类 别 设 定 一 个 可 以 接受 的 误 检 率 ， 或 者 设 定 每 单位 时 间 处 理 的 文档 数 ， 或 者 设 定 收 到 邮件 
的 分 发 比例 。 这 些 参数 都 很 容易 估计 ， 随 着 时 间 的 推移 ， 为 了 将 它们 维护 在 指定 的 水 平 ，t 
不 断 地 自动 调整 。 


10.2 分 类 


上 面 已 经 通过 详细 的 例子 ， 采用 BM25 去 说 明 分 类 器 和 过 滤器 的 特性 ， 下面 将 使 用 其 他 
方法 去 解决 相同 的 问题 。 过 滤器 和 分 类 器 的 核心 是 分 类 (classification)。 最 基本 的 分 类 问题 
是 二 元 分 类 (binary classification) ， 就 是 一 个 确定 对 象 是 否 具有 某 种 性 质 P 的 过 程 。 二 元 分 
类 器 (binary classifier) 是 二 元 分 类 的 自动 化 过 程 。 在 我 们 提出 二 元 分 类 方法 的 过 程 中 ， 还 
使 用 垃圾 邮件 过 滤 的 例子 ， 其 中 对 象 就 是 电子 邮件 ， 性 质 P 就 是 “是 垃圾 邮件 ”， 而 分 类 器 
就 是 垃圾 邮件 过 滤器 。 接 着 ,我们 将 把 该 方法 应 用 到 其 他 例子 中 ， 其 中 ， 对 和 象 就 是 文档 ， 性 
质 就 是 “相关 ”， 或 者 如 “乌克兰 语 ” 之 类 的 某 种 语言 。 

分 类 问题 的 出 现 远 比 计算 机 的 出 现 要 早 得 多 。 经 典 统计 理论 的 早期 工作 中 就 关注 过 二 元 
分 类 问题 ， 如 在 一 个 啤酒 厂 的 质量 控制 中 确定 坏 批 (质量 不 好 的 啤酒 一 一 译 者 注 ) 的 过 程 。 
在 这 个 基础 上 出 现 了 一 些 特殊 的 术语 沿用 至 今 。 现 在 ， 任 何 真正 的 分 类 必然 是 不 完美 的 。 第 
一 类 错误 (type 1 error) 是 分 类 器 把 本 应 不 具有 某 种 性 质 的 对 象 错误 地 认为 它 具 有 这 种 性 
E (把 好 的 啤酒 确认 为 坏 的 ); 第 二 类 错误 (type 2 error) 是 当 对 象 具 有 某 种 性 质 时 分 类 器 
却 无 法 辨识 〈 不 能 把 坏 啤 酒 检测 出 来 ) 。 这 些 错误 的 后 果 依 赖 于 分 类 本 身 的 目的 。 对 于 啤酒 
分 类 而 言 是 避免 把 坏 的 啤酒 卖 给 客户 。 如 果 第 一 类 错误 经 常 发生 ， 就 会 由 于 浪费 而 导致 利益 
损失 ;如 果 第 二 类 错误 经 常 发 生 ， 后 果 虽 然 不 那么 显然 但 却 严重 很 多 ， 包 括 商 誉 损失 和 危害 
公共 健康 。 . 

通过 信号 检测 理论 (signal detection theory) 一 一 该 理论 是 在 发 明 雷 达 时 提出 的 ， 我 们 
可 进一步 研究 分 类 。 信 号 检测 理论 广泛 应 用 于 医疗 诊断 测试 以 及 其 他 领域 。 实 际 上 ， 每 个 人 
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都 对 诊断 测试 的 应 用 比较 熟悉 。 例 如 ， 阳 性 的 妊娠 测试 会 被 视 为 是 一 个 人 怀孕 的 证 据 〈 不 是 
proof) 。 一 个 阳性 〈positive) 的 测试 结果 可 作为 某 些 条 件 的 证 据 ; 一 个 阴性 (negative) 的 
测试 结果 可 作为 不 符合 某 些 条 件 的 证 据 。 真 阳性 (true positive, tp) 是 指 检测 正确 的 阳性 
结果 ， 假 阳性 (false positive, fp) 指 检测 错误 的 阳性 结果 。 同 样 ， 真 阴性 (true negative, 
tn) 指 检测 正确 的 阴性 结果 ， 而 假 阴 性 Cfalse negative, fn) 指 检测 错误 的 阴性 结果 。 也 就 
是 说 ， 假 阳性 和 假 阴 性 分 别 对 应 第 一 类 错误 和 第 二 类 错误 。 表 10-16 对 应 列 出 了 4 种 可 能 的 
情况 ， 我 们 把 这 张 表 称 为 关于 诊断 测试 结果 的 相依 表 Contingency table), 


表 10-16 关于 诊断 测试 结果 的 相依 表 








诊断 测试 的 有 效 性 一 般 用 敏感 度 (sensitivity) 和 特异 度 (specificity) 描述 ， 也 称 为 真 
阳 率 (true positive rate, tpr) 和 真 阴 率 (true negative rate，tnr)。 如 果 采 用 表 10-16 中 的 
元 素来 表示 某 个 测试 中 的 4 种 可 能 出 现 情况 的 频率 ， 有 


sensitivity = tpr = tn 


TR’ specificity = tnr = int hp (10-3) 
因为 对 于 好 的 测试 结果 ， 人 敏感 度 和 特异 度 都 趋 于 1， 所 以 把 误 检 率 一 并 考虑 进来 会 更 便 
于 比较 。 假 阴 率 (false negative rate, fn) 和 假 阳 率 (false positive rate, fpr) 定义 如 下 : 


fnr = 1 — sensitivity = or ， fpr= 1— specificity = mtp (10-4) 
在 妊娠 测试 中 ， 我 们 只 对 剑 孕 这 一 情况 感 兴趣 。 假 阴 率 对 应 测试 结果 为 阴性 的 怀孕 妇女 的 比 
例 ; 假 阳 率 对 应 测试 结果 为 阳性 的 未 孕妇 女 的 比例 。 . 

假 阴 率 和 假 阳 率 很 容易 因为 某 种 原因 称 为 检察 官 的 廖 论 Cprosecutor’s falla- 
cy) 一 一 而 被 误解 。 现 在 我 们 做 一 个 妊娠 测试 ， 并 设 fpr 二 1% ，fnr 二 10% ， 并 且 某 人 的 测 
试 结果 呈 阳 性 。 检 察 官 的 雇 论 断言 这 个 人 怀孕 的 概率 为 1—fpr=99% 。 如 果 这 个 人 是 男 的 ， 
那么 明显 这 个 断言 是 一 个 雇 论 。 无 论 测 试 结果 如 何 ， 一 个 男人 怀孕 的 几率 是 微乎其微 的 。 所 
以 ,最 合理 的 解释 就 是 测试 结果 是 假 阳 性 。 但 如 果 接 受 测试 的 是 一 个 有 怀孕 症状 的 育龄 妇 
女 ， 那 合理 的 解释 就 是 测试 结果 是 真 阳性 ， 而 且 其 概率 要 远 远 高 于 99% 。 为 了 量化 这 样 的 


先 验 概率 ， 我 们 引入 比值 、 比 值 比 和 似 然 比 这 三 个 概念 。 


10.2.1 比值 和 比值 比 


把 操作 概率 和 条 件 概 率 简称 为 比值 〈《odds) 和 比值 比 (odds ratio, OR). SRF x 
下 的 事件 e， 可 以 定义 : 











Odds[e] = Pg (10-5) 
Odd 
OR(e,2) = ae (10-6) 
根据 定义 ， 直 接 可 得 : 
Odds{e | z] = Odds[el - OR(e, x) (10-7) 


对 公式 (10-7) 中 的 Prle|a lM Pree a RANER, A: 
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Prlelz Prizxlel-Prle]:Prlz 
OR(e, x) = Prlelzj _ PE PEP Prlz|e| 





PE = PE = Prlz|a) (10-8) 
这 种 形式 的 比值 比 通常 也 称 为 已 知事 件 e 下 条 件 x 的 似 然 比 (likelihood ratio, LR): 
_ Prlz|el] 
LR(e, x)= Prlz le] (10-9) 


其 中 ，PrLz1ej 是 给 定 事件 e 下 条 件 2 RMR, Priel ERER e PA © 的 似 然 。 
比值 这 个 概念 很 好 理解 ， 也 很 容易 通过 统计 “ 赢 ” 和 “ 输 ” 的 次 数 来 估计 。 如 果 一 个 运 . 


动 队 赢 了 50 次 ， 输 了 30 次 ， 就 可 以 估计 他 们 赢 的 比值 为 36<z1. 67。 比 值 比 可 以 理解 为 当 条 
件 x 为 真 时 ， 比 值 改 变 的 幅度 。 例 如 ， 假 设 知道 新 队员 Mika 的 加 入 将 会 提高 队伍 的 胜算 提 
BREAL. 76， 那 么 就 可 以 说 比值 比 为 ; 


OR(winning, Mika) = 22 ~ 1.06 (10-10) 


一 般 来 说 ， 如 果 OR(e，z) 二 1， 就 说 条 件 x 提高 了 事件 e 的 比值 ; 如果 ORCe, wd<1, HBP 
就 说 x 降低 了 e 的 比值 。 现 在 考虑 加 入 另外 一 个 运动 员 Jenson 的 情况 ， 这 时 OR (winning, 
Jenson) 1.12。 这 表明 让 Jenson 加 和 是 一 个 不 错 的 选择 。 但 同时 让 这 两 个 运动 员 都 加 入 
情况 又 如 何 ? OR (winning, Mika and Jenson) 的 值 是 多 少 呢 9 由 朴素 贝 叶 斯 假设 可 类 言 ， 
. OR(e, x and y) =OR(e, x) - OR(e, y) (10-11) 
使 用 这 个 假设 ， 有 
OR(winning, Mika and Jenson) ~ 1.18 (10-12) 
但 在 很 多 情况 下 ， 这 个 假设 是 不 现实 的 。 如 果 Mika 和 Jenson 在 队 中 的 位 置 是 相同 的 ， 例 如 
都 是 当 守 门 员 的 ， 那 么 同时 雇佣 两 人 得 不 到 太 多 的 累计 效益 。 而 且 ， 如 果 Mika 和 Jenson 之 
间 有 私人 了 矛盾， 反而 会 导致 整个 队伍 取得 胜利 的 比值 下 降 。 
现在 考虑 妊娠 测试 ， 我 们 希望 计算 怀孕 的 比值 ， 已 知 检测 结果 呈正 例 : 
Odds|pregnant | positive] = Odds[pregnant] - OR(pregnant, positive) (10-13) 
从 公式 (10-8) 有 : 
tpr 90% 


OR(pregnant, positive) = LR(pregnant, positive) = for = 7% 
o 


先 验 比值 (prior odds) Odd [pregnant]， 完 全 由 证 据 决 定 ， 而 不 是 测试 。 如 果 要 求 进 
行 妊娠 测试 的 妇女 80 多 实际 上 都 已 经 怀孕 了 ， 那 就 有 ， 





= 90 (10-14) 





90 
Odds[pregnant | positive] = ue : a = 360 (10-15) 
同时 有 ， 
Pr t|positivel = — 00 _ ~ 99.7% (10-16) 
pregnant positive] = 3-360 ~ 99.7% 


但 如 果 测 试 结果 是 阴性 ， 有 


80% fnr _ 80% 10% 、0 404 (10-17) 


Odds[preguant | negative] = 30% inr ~ 20% 99% 








同时 有 ， 
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0.404 
Pr|pregnant | negative] ~ i a 


在 这 种 情况 下 ， 就 需要 再 进行 一 次 妊娠 测试 。 


10.2.2 ”构造 分 类 器 


在 分 类 和 过 滤 应 用 中 ， 我 们 希望 利用 已 知 所 属 类 别 的 文档 样本 自动 构造 一 个 二 元 分 类 
器 。 当 已 知 两 个 互 斥 类 别 〈 例 如 ， 有 用 信息 和 垃圾 信息 )， 构 造 一 个 二 元 分 类 器 以 判定 对 象 
是 否 属于 其 中 的 一 个 类 别 。 一 个 正 例 结果 表示 属于 这 个 类 别 ， 反 例 结果 表示 属于 另 一 个 类 
别 。 如 果 类 别 不 是 互 斥 的 ， 则 可 分 别 为 每 一 个 类 别 构建 一 个 独立 的 二 元 分 类 器 。 对 于 n> 2 
个 类 别 ， 可 以 将 多 个 二 元 分 类 器 合并 或 建立 一 个 n 路 分 类 器 (参见 11. 6 节 ) 。 本 节 中 我 们 
考虑 构建 一 个 二 元 分 类 器 的 问题 ， 并 考虑 二 元 分 类 器 在 分 类 和 过 滤 中 的 作用 。 

分 类 可 形式 化 为 一 个 学 习 器 工 构造 一 个 分 类 器 e 的 过 程 ，c 返回 正 例 /反例 结果 或 一 个 
连续 的 得 分 。 给 定 一 个 文档 集合 D, A PCD 表示 D 中 具有 某 些 让 人 感 兴趣 的 文档 子 集 。 
方便 起 见 ， 用 P 一 D\P 代表 P 的 补 集 ， 表 示 不 具备 这 种 让 人 感 兴趣 性 质 的 文档 子 集 。 关 键 
问题 是 构建 一 个 分 类 器 一 一 一 个 具体 的 函数 ， 对 于 任何 文档 9， 都 能 准确 回答 问题 “已 知 
qd，dEP?”。 一 个 理想 分 类 器 是 一 个 完全 函数 

isp: D — {pos, neg} © (10-19) 
使 得 仅 当 dEP Ht, isp(d)= pos 成 立 。 但 是 这 样 的 理想 分 类 器 是 不 存在 的 ， 不 过 ， 我 们 可 
以 构造 一 个 近似 的 分 类 器 cisp。 硬 分 类 器 和 软 分 类 器 所 使 用 的 近似 概念 是 不 同 的 。 对 于 
硬 分 类 器 





= 28.8% (10-18) 


c:D— {pos, neg} (10-20) 
对 于 大 部 分 文档 dE€ D， 通 过 扩展 c(ad) 一 ?sp(d) 来 通 近 jsp。 对 于 软 分 类 器 
c:D>R (10-21) 


对 于 大 部 分 (d, dDEPXP, 通过 扩展 c(d)>c(d) KiB isp. MAK cs 可 以 利用 软 
分 类 器 c。 和 一 个 固定 阅 值 t 来 定义 : 
_ Í pos (cs(d) > t) E 
cn(d) = neg (cs(d) <t) (10-22) 
一 个 度量 硬 分 类 器 有 效 性 的 简单 实用 的 方法 是 
l{d|ca(d) = ?sp(gj| 
|D| 


accuracy = l—error = (10-23) 


在 过 滤器 构造 中 通常 都 会 使 用 并 优化 准确 率 (accuracy) MRM (error) ， 但 它们 均 独 立 
于 普遍 度 。 同 时 使 用 以 下 两 个 误 检 率 度量 
|P N {alc(d) = pos}| 


P £ far = [Zo dla le (10-24) 
对 于 软 分 类 器 ， 使 用 代价 指标 
i avon PPO @) eld) < cd +¥PxPN{Gd,d) ed) =e} (10 25) 


IP- [PI 
在 过 滤 过 程 中 ， 把 分 类 器 c 看 做 一 个 固定 公式 ， 带 一 个 由 已 学 习 的 概要 文件 profile) 指定 
的 隐 含 参数 ， 也 就 是 说 ，c(d) 是 cCproyile，d ) 的 简写 ， 其 中 概要 文件 是 从 学 习 器 工 得 
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到 的 。 


10.2.3 ”学 习 模 型 
学习 器 L 根据 获得 的 证 据 构 造 一 个 概要 文件 。 证 据 的 获取 方式 依赖 于 学 习 模式 Clearn- 


ing mode), 

。 监督 学 习 (supervised learning) 是 机 器 学 习 分 类 器 中 的 一 种 常见 模式 。 学 习 器 的 输 
A (CT, label) 包含 一 个 训练 集 TOD 以 及 一 个 函数 label; T—{ pos, neg}, label 
FEF RT bE isp. ARM label 一 般 由 专家 手工 输入 。 假 设 T SHAD 独立 且 同 
分 布 (independent and identically distributed，i.i. d. )， 并 且 对 于 所 有 dET, 
label(d) 二 isp(Q)， 则 学 习 唤 生成 一 个 对 于 某 些 效用 函数 而 言 优 化 了 的 e 的 概要 文 
件 〈profile)， 如 准确 率 。 带 上 述 假设 的 监督 学 习 非 常常 见 ， 一 般 假设 也 是 没有 问题 
的 。 但 要 获得 一 个 样本 是 非常 困难 的 一 一 尤其 是 一 个 与 被 分 类 文档 独立 且 同 分 布 的 
样本 。 实 际 上 ， 文 档 集 D 中 的 很 多 成 员 (我 们 感 兴趣 分 类 的 文档 ) 只 存在 于 未 来 ， 
因此 要 获得 这 样 的 样本 是 不 可 能 的 。 同 样 ， 构 造 函 数 label 的 过 程 也 相当 费力 并 且 
很 容易 出 错 ， 因 此 这 个 假设 的 存在 性 是 值得 怀疑 的 。 也 不 应 该 假设 通过 优化 准确 率 
就 能 使 分 类 器 到 达 预 期 的 效果 。 
半 监 督学 习 (semi-supervised learning) RIZA KH (T, S, label), EF, TZ 
D, SCT, label: S— (pos, neg}, tRHtHT, label 仅 定 义 在 训练 集 的 一 个 子 
集 上 。 半 监督 学 习 考 虑 到 获取 样本 文档 比 标记 它们 容易 这 一 事实 。 正 如 监督 学 习 一 
样 ， 它 也 假设 T 是 文档 集 DD 的 一 个 i id. 样本 。 这 个 假设 允许 学 习 器 从 未 标记 的 
样本 T\ S 中 学 习 到 更 多 关于 文档 集 DD Hatt. SAA CS, S, label) 时 ， 
半 监 督学 习 就 是 监督 学 习 ; 这 个 特殊 情况 为 比较 半 监 督学 习 器 提供 了 一 个 方便 的 基准 。 
直 推 式 学 习 (transductive learning) 与 半 监 督学 习 类 似 ， 使 用 与 前 面 一 样 的 标记 和 
未 标记 样本 (TT，S，label)。 区 别 在 于 未 标记 样本 就 是 测试 样本 ， 也 就 是 T=D. 
因此 ， 分 类 器 c : T> (true, false} Re: T 一 民 只 运用 在 了 的 元 素 中 。 上 典型 的 信 
| 息 检索 就 是 直 推 式 学 习 的 一 个 例子 ， 所 有 的 语 料 都 用 于 统计 文档 信息 ， 被 分 类 为 相 
关 文 档 的 集合 是 语料库 的 一 个 子 集 。 
非 监 督学 习 (unsupervised learning) 假设 不 存在 函数 label, HR. HAMA 
TCD， 并 且 不 直接 使 用 它 去 构造 分 类 器 。 尽 管 如 此 ， 非 监督 学 习 还 是 可 以 与 其 他 方 
法 结合 在 一 起 使 用 的 。 例 如 ， 假 设 每 组 中 的 成 员 都 属于 同一 个 类 ， RK 
(clustering) 方法 可 为 相似 信息 找到 所 属 的 组 。 
在 线 学 习 (on-line learning) 并 不 事先 区 分 训练 样本 和 测试 样本 。 待 分 类 样本 构成 一 
个 序列 S=d,, do, dn. 4M dx 被 分 类 后 ， 所 有 之 前 的 文档 (dice) 就 可 以 
作为 训练 样本 。 每 个 样本 首先 测试 分 类 器 ， 然 后 再 训练 分 类 器 。 一 个 在 线 分 类 器 
(不 需要 高 效 或 有 效 ) 可 以 通过 使 用 T= (dil i <k ERIRE, HEA wx 构造 一 
个 新 的 批 分 类 器 实现 。 如 果 每 个 文档 都 被 标记 了 ， 那 就 是 监督 在 线 学 习 ; BH. M 
是 半 监 督 或 者 无 监督 。 这 个 方法 有 两 个 主要 缺点 : 

D 样本 特性 可 能 会 随时 间 而 改变 ， 这 种 现象 称 为 概念 漂移 Concept drift). BAED 
由 于 忽略 了 训练 样本 序列 中 内 在 的 时 空 线索 ， 因 此 无 法 为 这 种 现象 建 模 。 

2) 如 果 使 用 每 个 可 用 训练 样本 去 构造 一 个 新 的 分 类 器 cx 来 分 类 每 个 wx ， 那 对 S 上 总 
的 运行 时 间 将 是 平方 级 的 或 更 高 。 当 构造 cs 时 ， 共 有 一 1 个 训练 样本 ， 检 查 每 一 个 样本 
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所 需 的 时 间 就 是 的 一 个 比例 。 因 此 ， 构 造 所 有 的 cx 的 时 间 下 界 是 


>》 一 1e Qn?) (10-26) 


i=k 

。 增 量 式 学 习 (incremental learning) 可 以 降低 分 类 一 个 样本 序列 的 总 开销 。 一 个 增 量 
式 学 习 器 从 为 dx 构造 的 分 类 器 cr 的 隐 式 概要 文件 profile, 中 高 效 构 造 ct+l ， 而 无 需 
检查 T.: 中 所 有 的 样本 。 为 在 线 过 滤 选 择 分 类 方法 时 ， 一 个 很 重要 的 标准 就 是 学 习 
器 具备 高 效 的 增 量 式 构造 的 能 力 。 增 量 式 学 习 近 似 于 使 用 批 过 滤 或 者 滑动 窗口 的 非 
增 量 式 学 习 。 i 

。 主动 学 习 (active learning) 允许 分 类 器 从 有 限 的 未 标记 训练 样本 中 请 求 标记 。 例 如 ， 
分 类 器 请 求 用户 标 记 一 些 特定 信息 ， 然 后 基于 这 些 标记 样本 再 对 剩 下 的 信息 进行 分 
类 。 主 动 学 习 的 原型 方法 就 是 非 确 定 采 样 (uncertainty sampling) (Lewis 和 Catlett, 
1994) ， 在 每 一 个 末 标 记 样 本 中 使 用 软 分 类 器 ， 请 求 那些 分 类 结果 接近 阐 值 t 的 样本 
的 标记 。 


10.2.4 特征 工程 


尽管 我 们 把 分 类 器 的 处 理 域 D 定义 为 一 个 文档 集 ， 但 是 很 少 分 类 器 会 在 文本 表示 的 内 
容 上 进行 直接 操作 。 一 般 来 说 ， 每 个 文档 都 会 表示 成 一 组 特征 〈feature) 集 ， 这 些 特征 提取 
自 文本 或 与 文本 相关 的 外 部 信息 ， 例 如 收 到 电子 邮件 的 时 间 。 定 义 与 提取 特征 的 过 程 对 分 类 
器 是 很 有 用 的 一 一 称 为 特征 工程 (feature engineering) 一 一 它 将 对 过 滤器 的 整体 效果 产生 
重要 的 影响 。 因 此 ， 没 有 标记 为 特征 表示 的 特别 的 学 习 方 法 ， 读 者 会 怀疑 这 些 公布 结果 的 有 
效 性 (无 论 好 或 坏 )。 

一 个 文档 d 通常 被 表示 为 一 个 n WREE l=, h, n, y, ERRA 
i 是 一 个 离散 或 连续 值 ， 用 于 量化 信息 所 包含 的 对 分 类 有 用 的 证 据 。 因 此 ， 每 个 信息 可 以 
表示 成 n 维特 征 空间 (feature space) 中 的 一 个 点 。 最 明显 的 特征 就 是 第 3 章 中 词 条 和 词 项 
的 简单 的 统计 信息 了 。 

分 词 中 的 特征 抽取 与 搜索 中 的 分 类 基本 是 一 样 的 ， 只 是 重点 有 些 不 同 。 在 过 滤 和 分 类 应 
用 中 ， 文 档 都 是 按 序 处 理 的 ， 而 不 是 从 一 个 大 的 语料库 中 抓 取 ， 因 此 不 需要 构建 索引 。 能 用 
于 分 类 的 特征 远 远 比 能 用 于 搜索 引擎 的 特征 要 多 得 多 ， 因 为 搜索 引擎 要 为 每 个 特征 都 检索 一 
次 位 置信 息 列 表 。 例 如 ， 字 符 或 n-gram COL 3. 3 W) 这 些 特征 在 大 量 的 应 用 中 都 是 实际 且 
AFAR. FABRICA (sparse bigram) 一 一 由 k 划分 的 词 条 对 或 更 小 的 词 条 一 一 会 增加 特 
征 空间 的 维度 ， 但 在 过 滤 中 取得 了 不 错 的 效果 (Siefkes 等 人 ，2004)。 

尽管 如 此 ， 当 n 很 大 时 ， 学 习 器 无 论 在 效率 上 还 是 分 类 效果 上 的 性 能 都 不 好 。 现 在 考 
虑 从 一 个 训练 集 T(|1TI< 委 mw) 中 学 习 一 个 分 类 器 时 会 出 现 的 问题 。 在 这 里 ， 肯 定 可 以 通过 
得 出 联 立 方程 的 解 来 为 下 构建 一 个 完美 的 分 类 器 。 但 是 ， 这 个 分 类 器 在 D 上 的 总 体 性 能 会 
很 差 ， 这 种 现象 称 为 过 度 拟 合 (overfitting)。 所 有 的 分 类 器 上 都 会 出 现 泛 化 误差 (generali- 
zation error) ， 导 致 该 分 类 器 在 D 上 的 性 能 比 T 上 差 。 不 同学 习 方 法 的 主要 区 别 之 一 就 在 于 
最 小 化 泛 化 误差 的 能 力 。 

特征 选择 (feature selection) 用 于 减少 特征 的 数量 %， 从 而 减少 特征 空间 X 的 维度 。 
更 一 般 的 做 法 是 采用 降 维 (dimensionality reduction) 技术 ， 将 特征 空间 X 投影 或 者 变换 到 
一 个 维度 更 少 的 空间 中 。 进 行 降 维 主要 有 两 个 目的 : 达到 更 好 的 时 间或 空间 效率 以 及 降低 泛 
化 误差 。 
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在 以 前 ， 特 征 选 择 或 降 维 是 构建 分 类 器 前 的 一 个 单独 预 处 理 步骤 。 随 着 分 类 器 构建 技术 
的 发 展 ， 这 种 观点 不 合适 了 。 特 征 选 择 和 分 类 器 之 间 可 以 有 很 多 互动 ， 使 得 二 者 可 以 结合 起 
来 考虑 。 我 们 对 的 定义 并 没有 规定 不 允许 作为 一 个 中 间 步 又 将 它 的 输入 投影 到 更 小 的 空 
间 。 一 些 分 类 器 ， 如 朴素 贝 叶 斯 方法 和 决策 树 方法 ， 就 很 好 地 采用 了 这 种 做 法 。 但 一 些 性 能 
最 好 的 分 类 器 ， 如 logistic 回归 和 支持 向 量 机 ， 就 没有 明确 地 采用 降 维 ， 而 是 通过 其 他 方法 
解决 效率 和 泛 化 误差 的 问题 。 然 而 ， 我 们 并 不 是 说 特征 选择 和 降 维 是 没有 用 的 ， 而 只 是 说 明 
在 采用 这 些 技 术 时 ， 需 要 先 考虑 应 用 的 背景 和 分 类 的 方法 ， 在 很 多 情况 下 ， 是 不 需要 用 到 这 
些 技术 的 。 

特征 选择 是 最 直接 的 降 维 方法 ， 停 词 〈 见 3. 1. 3 节 ) 就 是 一 个 简单 的 例子 。 已 有 很 多 统 
计 方 法 可 用 于 确定 最 重要 Gmportant) 的 特征 ， 并 把 剩 下 的 去 掉 。 词 干 提取 〈 见 3.1.2 节 ) 
是 降 维 的 一 个 简单 例子 ， 它 把 多 个 特征 合并 成 一 个 。Hash 也 是 一 种 成 功 应 用 的 降 维 技术 ， 
它 通过 任意 合并 具有 相同 hash 的 维度 来 缩小 空间 。 更 复杂 的 方法 ， 如 主 成 分 分 析 ， 用 线性 
代数 将 整个 特征 空间 变换 到 另 一 个 更 小 的 维度 中 。 

一 些 特征 工程 选择 可 能 很 难 与 增 量 式 分 类 器 的 构造 过 程 融 合 在 一 起 ， 因 此 也 很 难 和 在 线 
自 适 应 过 滤 融 合 在 一 起 。 之 前 未 知 的 特征 会 随时 出 现 ， 因 此 增加 了 空间 的 维度 。 某 个 特征 的 
已 知 值 也 会 随 着 学 到 的 新 样本 而 增加 。 如 IDF 这 样 的 全 局 统计 量 就 得 重 算 ， 因 为 每 个 文档 
的 增加 都 改变 了 它 包含 的 所 有 词 项 的 IDF 值 。 而 这 个 改变 会 大 大 影响 前 面 已 过 滤 文 档 的 有 
效 得 分 。 对 于 在 线 应 用 ， 统 计 特 征 选 择 和 降 维 均 存 在 很 大 的 问题 ， 因 为 统计 量 是 经 常 变 
化 的 。 

评价 分 类 器 时 一 种 常见 的 错误 是 : 在 训练 和 测试 文档 上 做 特征 选择 或 降 维 。 这 种 做 法 很 
明显 是 错误 的 ， 因 为 该 方法 把 从 测试 样本 获得 的 信息 直接 传人 到 分 类 器 的 概要 文件 中 。 


10.3 ”概率 分 类 器 


概率 分 类 器 为 给 定 文档 (形式 为 xc 一 (aa 本， IHAA HR 
Pride P| a], asc d 具有 性 质 P 的 概率 ， 或 者 等 价 地 说 ， 属 于 具有 这 个 性 质 的 文档 
RE P 的 概率 。 这 个 估计 可 直接 用 作 一 个 软 分 类 器 
c(d) = pd (10-27) 
或 加 上 一 个 阐 值 + (0<t<1) ， 得 到 一 个 硬 分 类 器 


pos (pd >t) 


c(d) = 
neg (pld < t) 


(10-28) 
概率 分 类 有 以 下 两 个 步 又 : 

D 为 zc 中 的 每 个 xia 估计 pi2~Pr [AEP | wh], 

2) 把 上 述 估计 值 结合 在 一 起 ， 输 出 p™M Pr (dE P | a], 


10.3.1 概率 估计 


特征 可 以 是 离散 或 连续 的 。 一 个 离散 特征 〈 也 称 为 分 类 特征 (categorical feature))〉 假 
设 可 能 取 值 是 有 限 个 。 而 连续 特征 取 值 有 无 限 多 个 。 对 于 分 类 特征 和 连续 特征 ， 有 不 同 的 概 
率 估 计 方 法 。 

1. 分 类 特征 的 概率 估计 

首先 考虑 一 种 特殊 的 情况 : 二 元 (binary) 特征 ， 只 有 0 和 1 两 种 可 能 取 值 。 二 元 特征 


232 - 第 三 部 分 检索 和 排名 


的 值 oi)? {0,1} 没有 什么 特殊 的 含义 ，x 纪 一]1 表示 某 个 词 条 出 现在 文档 a 中， 而 
2% 多 一 0 表示 某 个 词 条 不 出 现在 文档 d H, cl =k, SOR d EP 中 的 比值 可 估计 为 训 
练 集 T 中 正 例 与 反例 的 比例 ， 


lfesrilz 吕 = 号 nal 

\{aeT |" = k} n P| 
例如 ， 假 设 单词 “money” 在 垃圾 信息 中 出 现 了 100 次 ， 在 有 用 信息 中 出 现 了 5 次 。 那 

给 定 一 个 包含 “money” 的 信息 ， 它 是 垃圾 信息 的 估计 为 Odds (de P| zt 一 1] ~ 一 


Odds[d € P| a! = k] æ (10-29) 


。 同 样 地 估计 用 概率 形式 表达 为 Pr [de P| 2f4=1] w= 二 0.952。 当 上 二 1 时 ， 没 
FEAE. BULENT 1000 个 过 报信 息 和 1000 个 有 用 信息 组 成 ， 并 推 基 其 中 
900 个 垃圾 信息 和 995 个 有 用 信息 都 有 z: 一 0， 因 此 ， 一 个 不 包含 单词 “money” 的 信息 是 
垃圾 信息 的 估计 是 Odds [dE P | al =0] 一 0060.9， 也 就 是 ， 这 两 个 概率 几乎 相等 。 


因此 ， 单 词 “money” 不 出 现 对 过 滤 问 题 几 乎 是 没有 贡献 的 ， 出 于 这 个 原因 ， 过 滤器 通常 会 
忽略 词 条 不 出 现 所 产生 的 信息 。 


如 果 训 练 样本 中 的 正 例 数量 a 和 反例 数量 5 都 足够 大 ， 那 名 将 是 一 个 很 好 的 比值 信 计 。 
如 果 它 们 都 比较 小 ， 那 么 由 于 随机 性 ， 这 个 估计 是 不 可 化 的 ， 如 果 其 中 一 个 或 同时 取 值 为 
D EAIRT, Ro ERAEN. TERE T SERRATE, 


分 别 为 分 子 和 分 母 加 上 一 个 很 小 的 正常 量 y 和。， ELS 人 二 作为 概率 估计 。 4 a=b=0 ff, 


和 
我 们 知道 ， 上 面 的 估计 公式 可 以 推广 到 非 二 元 分 类 特征 的 情况 ， 其 中 可 能 取 值 不 只 
是 0 或 1。 这 时 需要 分 别 为 每 个 上 值 计算 比值 估计 。 
2. 连续 特征 的 概率 估计 
MR of) 是 实数 特征 ， 一 种 直接 估计 这 个 特征 概率 的 方法 是 将 它 的 值 与 闭 值 t 进行 比 
较 ， 变 换 为 二 元 特征 值 919 : (0, 1} 
z >t 
a= 0 <t 
然后 向 上 一 节 所 述 那样 估计 Odds (dE P| =k], REEKSE, SRM. tee 
有 什么 特别 的 意义 ， 因 此 也 可 处 理 一 下 特征 ， 使 得 zf 越 大 文档 9E P 的 概率 越 高 。 换 句 话 
Bi, a!) 本 身 就 是 一 个 软 分 类 器 ，15 就 是 对 应 的 硬 分 类 器 。 对 于 一 个 n 元 类 别 值 bi" € 
《0， L oee n—l}, 可 以 采用 nn 一 1 个 立 值 分 出 n i Cbin); 


nl tn-1 < z” 


(10-30) 


a . 
=) 1 (10-31) 


0 git < tı 
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根据 连续 特征 值 <te 的 取 值 得 到 相应 的 概率 估计 。 
这 个 方法 的 主要 缺点 是 ， 随 着 n 增 大 ， 对 于 任意 的 上， 具有 性 质 bi 一 大 的 文档 的 数 
量 会 减少 ， 这 使 概率 估计 的 可 靠 性 下 降 。 另 一 种 方法 是 定义 一 个 变换 函数 f : 民 ->R， 使 得 
f(k) Odds|d € P |z” =k] (10-32) 
使 用 带 参 数 的 模型 代替 简单 统计 方法 来 估计 eer aa a. Am, AA GE 
AS) 高 斯 分布，4 个 参数 一 一 wl 中 和 wh 的 均值 和 标准 差 u(i, P), oi, P), pC, 
P), oi, P) 一 一 足以 描述 分 布 的 特征 。 给 定 这 些 参 数 ， 可 以 计算 似 然 比 


LR(d € P, oak) m MP OC) k) i 
( zi =k) guapoa pk) (10-33) 
其 中 ，9 是 高 斯 分 布 的 概率 密度 函数 。 由 公式 (10-7) 与 公式 (10-8) 有 

Oddside P |x =k] NE . 9H.P), TGP) k) 


-34 
NF GME Py Ou, Py k) 《10 34) 


其 中 ，Np 和 Ns 分 别 对 应 中 的 正 例 和 反例 的 数量 。 

3. 一 个 例子 

为 了 说 明 上 面 的 方法 ， 使 用 从 TREC 2005 公共 垃圾 邮件 语料库 (‘Cormack 和 Lynam, 
2005) 中 提取 的 两 个 特征 。 已 知 该 语料库 中 的 所 有 信息 都 是 发 送 给 某 个 组 织 中 的 不 同 成 员 ， 
这 个 组 织 的 名 字 (在 这 里 是 Enron) 在 垃圾 信息 和 有 用 信息 中 的 普遍 度 不 同 。 我 们 使 用 的 两 
个 特征 分 别 是 转换 为 小 写 之 后 每 个 信息 的 标题 和 正文 中 出 现 字符 串 序列 “enron” 的 次 数 。 
head; enron 表示 “entron” 在 标题 中 出 现 的 次 数 ; body: enron 表示 “enron” 在 正文 出 现 
的 次 数 。 表 10-17 列 出 了 语料库 中 18 条 信息 的 这 些 属性 ， 其 中 10 条 是 垃圾 信息 ，8 条 是 有 
用 信息 。 


% 10-17 TREC 2005 公共 垃圾 邮件 请 料 库 中 的 样本 








信息 标签 正确 分 类 垃圾 邮件 有 用 邮件 
016/201 spam 12 0 
033/101 spam 11 0 
050/001 spam 10 0 
066/186 ham 7 24 
083/101 ham 21 0 
083/101 ham 21 0 
100/001 ham 27 4 
133/101 spam 12 17 
148/013 ham 22 5 
166/201 ham 13 23 
183/101 spam 11 0 
200/001 spam 14 4 
216/201 ham 25 2 
233/101 spam 13 20 
250/001 ham 5 0 
266/201 spam 12 0 
283/101 spam 13 0 
300/001 spam 11 22 








9 12.3.2 节 讨 论 了 高 斯 分 布 : gh P, #)= gu a(x), 
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由 于 二 元 特征 只 表明 “enron” 在 信息 对 应 的 部 分 出 现 与 否 ， 因 此 用 处 十 分 有 限 。 词 条 
“enron” 出 现在 每 个 信息 的 标题 中 ， 因 此 除了 垃圾 信息 与 有 用 信息 的 比率 ，“enron” 的 出 现 
没有 提供 任何 信息 〈 即 似 然 比 为 1 的 情况 )。 词 条 “enron” 出 现在 4 个 垃圾 信息 和 5 个 有 用 
信息 的 正文 中 ， 因 此 以 4 : 5 的 比值 估计 判断 一 个 正文 中 包含 “enron” 的 信息 是 垃圾 信息 。 
“enron” 没 有 出 现在 6 个 垃圾 信息 和 3 个 有 用 信息 的 正文 中 ， 因 此 ， 对 于 这 些 信 息 可 以 得 到 
2 :1 的 比值 估计 。 

表 10-18 将 这 些 估计 (改写 成 概率 形式 ) 与 我 们 的 “黄金 标准 ”( 即 在 整个 语料库 上 计 
算得 到 的 真实 (true) 概率 的 最 佳 估计 ) 进行 比较 。 


表 10-18 ”对 表 10-17 的 样本 进行 的 采样 估计 和 黄金 标准 估计 的 比较 








训练 数据 黄金 标准 
特征 了 T 
词 频 Pr [spam | f] 词 频 Pr [spam | f] 
head : enron Æ 0 1.0 ; 0.56 0.9999 0.57 
head : enron = 0 0.0 0.50 0.0001 0.00 
body : enron Æ 0 0.5 0.44 0.62 0.45 
body : enron = 0 0.5 . 0.67 0.38 0.77 
总 体 1.0 0.56 1.00 0.57 














表 10-19 列 出 了 把 head: enron 的 值 分 成 3 个 离散 区 间 (L0, 9], [10，19]j 和 [20,，30]) 得 
到 的 结果 。 概 率 估计 从 训练 数据 中 得 到 ， 此 时 平滑 参数 分 别 为 7 二 。 =0 和 一: 一 1 (参见 
10. 3.1 节 了 解 这 些 平滑 参数 的 作用 )。 中 间 区 间 (l0<head: enron<20) 很 好 地 预测 了 垃 
圾 信息 ， 两 端 则 预测 了 有 用 信息 。 
表 10-19 对 表 10-17 中 的 样本 进行 离散 特征 估计 
训练 数据 黄金 标准 













特征 f 
Pr [spam | f] 
0 < head : enron < 10 
10 < head : enron < 20 0.61 0.75 


20 < head : enron < 30 








假设 高 斯 分 布下 参数 op =11. 9, op=1.2, ppl’. 6, op 二 8. 3， 表 10-20 给 出 了 head: 
enron 每 个 可 能 取 值 的 预测 。 对 于 较 小 的 值 ， 该 模型 巧妙 估计 了 Pr [Ld EP | head: enron 
二 k]， 但 对 于 较 大 的 值 ， 该 模型 则 大 大 低估 了 这 个 概率 。 但 是 ， 很 少 使 用 到 较 大 的 
值 ， 因 此 低估 引起 的 影响 也 不 大 ;并且 这 时 通常 会 得 到 更 多 正确 的 分 类 结果 。 无 论 如 何 ， 该 
模型 还 是 有 很 大 的 改进 空间 的 。 
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表 10-20 ”高 斯 模型 下 对 表 10-17 的 样本 进行 的 采样 估计 和 黄金 标准 估计 的 比较 












































， 训练 数据 黄金 标准 
词 频 Pr [spam | head; enron 一 k] | 词 频 Pr [spam | head: enron—K] 

5 0.06 0.000 0 0.00 0.000 0 
6 0.00 0.000 0 0.01 0.070 5 
7 0.06 0.001 7 0.08 0.000 0 
8 0.00 0.031 1 0.05 0.040 9 
9 0.00 0.231 5 0.03 0.176 7 
10 0.06 0.588 0 0.07 0.619 1 
11 0.17 0.773 5 0.28 0.836 6 
12 0.17 0.804 9 0.19 0.734 3 
13 0.17 0.715 8 0.09 0.783 8 
14 0.06 0.437 1 0.04 0.726 9 
15 0.00 0.107 9 0.02 0.632 1 
16 0.00 0.009 4 0.01 0.468 7 
17 0.00 0.000 4 0.01 0.416 2 
18 0.00 0.000 0 0.01 0.483 8 
19 0.00 0.000 0 0.01 0.353 9 
20 0.00 0.000 0 0.01 0.574 5 
21 0.11 0.000 0 0.01 0.423 6 
22 0.06 0.000 0 0.01 0.400 8 
23 0.00 0.000 0 0.528 1 
24 0.00 0.000 0 0.102 6 
25 0.06 0.000 0 0.011 4 
26 0.00 0.000 0 0.062 9 
27 0.06 0.000 0 0.002 6 


10.3.2 联合 概率 估计 





我 们 想 估计 
2p 四 =Prld € 尸 |z 四 ] (10-35) 
分 别 计算 文档 a 的 每 个 特征 的 估计 
p” ~ Prid € Pje] (1 <i <n) (10-36) 
为 了 方便 ， 求 这 些 概率 估计 的 对 数 比值 〈log-odds) 估计 作为 代替 
lld ~ logOdds|d € P|zld] (10-37) 
其 中 | 
Ild = logit(p 四 ) = log i oP pial = logit-1 (114) = a (10-38) 
同时 定义 
Ili ~ logoddsld € 忆 jz 四 (1< < 人 (10-39) 
考虑 见 一 0，…，2 这 些 特殊 情况 ， 同 时 也 考虑 n>2 的 一 般 情况 : 
。 当 nn 二 0 时， 表示 空 向 量 ， 因 此 ， 估 计 值 1。 可 以 简化 为 
(d = {d = IPAT| +Y ~ logOdds|d € P] (10-40) 


[PAT +e 
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H+, y 与。 是 平滑 参数 ， 跟 前 面 提 到 的 一 样 )。 
。 当 nn 二 1 时， 因为 向 量 空间 太 小 了 ， 几 乎 可 以 忽略 ， 因 此 有 
id ~ 1d ~ logOddsld € P |z] (10-41) 
. X n==2 时 ， 就 有 点 难以 处 理 了 。 因 为 并 没有 一 般 的 方法 ， 在 不 考虑 条 件 依赖 xia 与 
ooh?) 的 情况 下 将 UY 与 be) 结合 得 到 一 个 估计 值 。 从 公式 〈10-7) 与 公式 040) 有 
log OR(d € P, a!) m 14 — {4 (10-42) 
log OR(d € P, xi) = A — 117! (10-43) 
EE DBF CBA 0-11) 有 
log OR(d € P, zl) = log OR(d € Pol) B. alt) wt — 1 (10-44) 
因此 有 
ja) — 14) 4 4 + = logOdds(d € 已 lz 四] (10-45) 
但 在 实际 中 ， 朴 素 贝 叶 斯 假设 很 少 成 立 。 例 如 当 发 现 邮 件 中 包含 词 项 “sildenafil” 时 一 一 无 
论 是 垃圾 邮件 还 是 正常 邮件 一 一 通常 同时 也 包含 词 项 “Viagra”。 除 了 无 效 的 假设 ,一 般 还 
会 使 用 朴素 贝 叶 斯 分 类 器 ， 因 为 该 分 类 器 简单 ， 而 且 当 使 用 概率 阐 值 t 一 0. 5 时 ， 它 可 以 作 
为 一 个 硬 分 类 器 ， 尽 管 这 时 候 它们 的 概率 估计 还 不 精确 (Domingos 和 Pazzani, 1997). 
一 个 相反 的 假设 是 x 与 wo, 是 独立 的 。 例 如 ，“sildenafil” 与 “Viagra” 的 同时 出 现 表 
明 邮 件 是 垃圾 邮件 ; 但 只 出 现 二 者 之 一 ,或 这 两 个 单词 同时 出 现在 某 封 特定 的 邮件 都 无 法 判 
定 该 邮件 就 是 垃圾 邮件 。 简 短 地 说 ， 一 个 包含 “sildenafil” 和 “Viagra” 的 信息 并 不 比 只 包 
含 其 中 一 个 词 项 的 信息 更 像 或 更 不 像 是 一 个 垃圾 邮件 。 在 这 个 假设 下 ，1i l 可 能 是 差 不 
多 的 ， 因 为 它们 估计 的 是 同一 个 量 并 且 只 有 估计 误差 不 同 : 
ja Wan (10-46) 
对 于 朴素 贝 叶 斯 和 log-odds 平均 来 说 ， 在 % 之 2 时 ， 一 般 的 解决 方案 是 将 各 个 UO 线性 组 合 
起 来 得 到 19 ; 


ill — S~ p; - 1!" (10-47) 
i=0 
对 于 朴素 贝 叶 斯 ， 有 
ai (=0) (10-48) 
1 (i > 0) 
对 于 log-odds 平均 ， 有 
a-| ° (i =0) (10-49) 


表 10-21 用 我 们 例子 中 两 个 离散 特征 的 联合 值 比 较 了 这 两 个 方法 。 我 们 看 到 log-odds 平 
均 得 到 的 估计 相对 稳定 ， 趋 近 于 po 二 0. 55; 而 朴素 贝 叶 斯 法 得 到 的 估计 值 相 对 波动 较 大 。 
对 于 某 些 例子 ， 采 用 log-odds 平均 可 能 会 得 到 更 好 的 估计 值 ， 但 对 于 另外 一 些 ， 采 用 朴素 
贝 叶 斯 会 可 能 得 更 好 的 估计 值 。 
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表 10-21 用 log-odds 平均 和 朴素 贝 叶 斯 得 到 的 联合 概率 估计 











特征 所 BER H Pe teml fie l oo 
Log-Odds 平均 朴素 贝 叶 斯 黄金 标准 
0 < head: enron < 10 | body : enron = ol 0.45 | 0.36 0.14 
0 < head : enron < 10 body : enron > 0 0.33 0.16 0.03 
10 < head : enron < 20 body : enron = 0 0.77 0.90 0.86 
10 < head : enron < 20 body : enron > 0 0.66 0.76 0.65 
20 < head : enron < 30 body : enron = 0 0.36 0.21 0.40 
20 < head : enron < 30 body : enron > 0 0.25 0.08 0.12 

















,的 取 值 有 多 种 可 能 。 例 如 ， 求 朴素 贝 叶 斯 估计 和 log-odds 平均 估计 的 均值 ， 得 到 一 
个 不 同 的 线性 组 合 ， 反 映 了 各 个 :ge 间 的 部 分 条 件 依赖 关系 。 或 者 对 于 某 个 B ， 根 据 对 应 
的 18 的 精确 度 ， 选 用 合适 的 权 值 代 蔡 二 。 

给 定 一 组 已 标记 训练 样本 ，logistic 回归 (logistic regression) 计算 使 似 然 (likelihood) 
最 大 化 的 局 。 假 设 概率 估计 为 p= pay Prd P| zi]， 似 然 是 将 样本 概率 简单 联 
合 的 值 ， 即 

likelihood = JJ pl. [J] 1-p!4 (10-50) 
deTNP deTOP 

因为 logistic 回归 是 为 了 求 & ， 所 以 不 需要 计算 每 个 UO 的 log-odds 估计 。 尤 其 不 需要 
为 logistic 回归 变换 分 类 特征 。 相 反 ， 可 以 把 特征 al: {kis krs =o kn) 理解 成 mm 个 
不 同 的 二 元 特征 oh, wil, ...， cil, 其 中 
id_| 1 (f = ky) 

2 | O(a # hy) 
BE, MO BOT, AP HF 10. 3. 1 节 所 述 的 理由 会 忽略 掉 ， 因 此 ol! TH eP ARAR 
蔡 。 另 外 ， 如 果 连 续 特 征 与 log-odds 成 正比 (或 接近 于 正比 ) ， 也 不 需要 对 它 进 行 变换 。 


10.3.3 ”实际 考虑 


特征 的 表示 方式 与 结合 方法 对 分 类 器 实现 的 简单 性 及 其 效率 有 着 很 大 的 影响 ， 特 别 对 于 
在 线 分 类 器 。 前 面 已 经 提 到 ， 一 些 特征 变换 方法 ， 如 TF-IDF 与 统计 特征 选择 等 ， 是 很 难 与 
自 适应 分 类 器 结合 起 来 使 用 的 。 另 一 种 基于 概率 的 理解 方式 一 一 对 全 局 分 布 建 模 一 一 同样 也 
存在 类 似 的 困难 。 因 此 ， 从 单个 信息 中 抽取 离散 特征 ， 独 立 于 从 训练 集中 得 到 的 特征 ， 会 更 
适合 在 线 系 统 。 即 使 对 于 批 过 滤 ， 这 些 简单 的 特征 表示 通常 也 与 那些 复杂 的 特征 一 样 ， 甚 至 
更 好 ， 而 且 基 于 全 局 统计 信息 的 特征 自 适应 性 也 较 差 。 

如 果 参 数 已 知 ， 朴 素 的 贝 叶 斯 分 类 器 还 是 很 容易 实现 的 ， 而 且 批 处 理 版 本 和 在 线 版 本 之 
间 也 没有 什么 区 别 。 批 处 理 版 本 如 图 10-7 所 示 。 它 统计 TOP STOP 中 每 个 特征 的 出 现 
次 数 ， 并 由 此 计算 log-odds 系数 。 一 个 等 价 的 在 线 自 适 应 版 本 〈 没 有 画 出 来 ) 只 是 简单 地 
把 统计 值 与 系数 计算 结合 起 来 。 新 特征 的 增 量 发 现 也 很 容易 完成 当 某 个 特征 第 一 次 出 现在 
文档 中 ， 就 将 其 初始 值 设 为 0。 
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输入 : 
训练 样本 集 TCD， 训 练 样本 qdE 下 ， 表 示 为 l= (1, gH, ghh, e, ohil) 
标记 函数 label. T— (0, 1} 
平滑 参数 y、* 


p -xl Log Odds [label (d) 二 1] 的 朴素 贝 叶 斯 估计 ， 其 中 有 (as os Bad 
1 pea} {0,...0) 
2 fordeT'do 
3 for i € [0..n] do 
4 if lf! =1 then 
5 
6 
7 





if label(t) = 1 then pi + pi +1 else a; — a; +1 
Bo — logit (2042) 


fori+1tondo 
E Bi — logit( 252) — Bo 
图 10-7 ”构造 朴素 贝 叶 斯 分 类 器 


尽管 朴素 贝 叶 斯 方法 适合 做 一 个 硬 分 类 器 ， 但 是 它 依然 是 一 个 软 分 类 器 ， 因 为 它 过 度 估 
计 了 各 个 特征 结合 所 带 来 的 效果 。 结 合 的 特征 越 多 ， 过 度 估计 越 严重 。 为 了 消除 这 个 影响 ， 
我 们 从 每 个 文档 中 选择 固定 的 词 项 个 数 。 对 于 某 个 固定 的 m {ol 中 只 有 最 大 的 m ME 
和 最 小 的 m 个 值 用 于 计算 x 中 。 这 个 选择 过 程 倾向 于 规范 化 在 文档 中 以 及 在 正 例 和 反例 特 
征 中 过 度 估计 的 幅度 。 

一 般 将 logistics 回归 看 做 一 个 批 处 理 算法 ， 但 在 在 线 或 批 处 理应 用 中 ， 采 用 梯度 下 降 
(gradient descent) 法 比 使 用 朴素 贝 叶 斯 来 实现 会 更 简单 和 有 效 。 梯 度 下 降 法 通过 在 每 次 迭 
代 中 都 沿 着 负 梯 度 方向 前 进 ， 找 到 该 函数 的 局 部 最 小 值 。 图 10-8 展示 了 批 处 理 版 本 的 实现 。 
最 简单 的 增 量 版 本 ， 对 于 每 个 接收 的 文档 都 执行 一 次 梯度 步 又 ， 而 不 是 多 次 和 迭代 直至 收 伍 。 
也 可 以 维护 当前 已 知 的 训练 样本 的 增 量 历史 并 在 此 基础 上 训练 。 例 如 ， 当 训练 一 个 新 的 正 例 
时 ， 也 同时 训练 一 个 随机 选择 的 反例 ， 周 而 复 始 。 最 终 的 结果 就 是 平衡 了 正 例 与 反例 的 样本 
数量 ， 以 达到 更 好 的 分 类 效果 。 
输入 : 

训练 样本 集 TCD， 训 练 样本 MET, RRA al (1, aft, ehh, o, oht) 


标记 函数 label: T-> (0, 1} 
速率 参数 8 








输出 : 

Bxl Pr [label (d) =1] 的 最 大 似 然 估计 ， 其 中 @E 工 
1 Pol0,..., 0) 
2 loop until convergence: 
3 for de T do 
4 
5 





Pe sat 


Be B. + (label(d) — p) - ô- x'®! 





图 10-8 ”使 用 梯度 下 降 法 实现 的 logistic 回归 


在 很 多 时 候 ， 梯 度 下降 法 的 空间 效率 对 大 规模 问题 相当 有 吸引 力 。 然 而 ， 如 果 训 练 样本 
数量 很 多 ， 那 就 需要 时 间 效 率 更 高 的 算法 了 。 

梯度 下 降 法 相对 较 慢 的 收敛 速度 对 于 克服 过 度 拟 合 是 一 个 优点 。 些 竟 logistics 回归 是 用 
于 解决 联 立 方程 的 ， 因 此 当 特 征 数 量 超 过 训练 样本 数量 时 ， 会 出 现 过 度 拟 合 的 问题 。 只 要 选 
择 合适 的 学 习 率 5， 梯度 下 降 法 就 能 避免 这 个 问题 。 另 外 ， 批 处 理 方 法 使 用 了 正则 化 〈regu- 
larization) 的 技术 来 避免 过 度 拟 合 。 正 则 化 不 但 最 大 化 每 个 训练 样本 的 似 然 值 ， 同 时 还 最 小 
化 8 的 变化 幅度 ， 因 为 大 的 系数 值 容易 出 现 过 度 拟 合 问题 。 在 最 大 化 似 然 值 和 最 小 化 | | 
之 间 需 要 找到 -一 个 平衡 点 ， 定 义 为 正则 化 参数 ， 记 为 C。 


第 10 章 ”分 类 和 过 滤 。239 


所 有 主要 的 统计 和 数学 软件 包 里 都 实现 了 批 处 理 的 logistic 回归 ， 这 是 科学 研究 的 一 个 
标准 工具 。 对 于 分 类 ， 比 较 著 名 的 实现 包括 Weka (Witten 和 Frank, 2005), LR-TRIRLS 
(Komarek 和 Moore, 2003) 和 LibLinear® 。 


10.4 ”线性 分 类 器 


线性 分 类 器 把 信息 d 的 特征 向 量 xi 中 看 做 no 维 空间 中 的 一 个 点 ， 其 中 n 是 特征 的 数量 。 
分 类 器 由 一 个 系数 向 量 B= (i> Bee ots Bod? 和 一 个 阔 值 上 组 成 。 公 式 8.x 一 上 定义 了 一 
个 超 平面 ， 将 空间 分 成 两 半 (half-spaces) 。 超 平面 一 边 (Bee >t) 的 所 有 点 都 分 类 为 正 
fl, THB (Bec <t) 的 所 有 点 都 分 类 为 反例 。 如 果 Yace Poet >t HH 
Vaca:p.x<t， 那 8.x 一 上 就 是 一 个 分 类 超 平面 (separating hyperplane) 。 如 果 存 在 这 
个 集合 的 一 个 分 类 超 平面 ， 那 么 一 组 信息 集 被 称 为 是 线性 本 分 (linearly separable) 。 前 面 一 
节 介 绍 的 概率 分 类 器 的 log-odds ao - 
公式 就 是 一 个 线性 分 类 器 。 本 节 p 
给 出 该 分 类 器 的 一 种 几何 上 的 理 O 非 垃圾 邮件 onm 
解 方式 ， 并 给 出 几 种 构造 方法 。 4 

ATA, RME n=2 
的 情况 。 但 请 记 住 典型 的 过 滤 应 
用 还 是 会 涉及 多 个 特征 ， 从 而 也 
有 更 多 的 维度 。 图 10-9 展示 了 我 
们 例子 〈 表 10-17) 中 18 个 信息 
的 向 量 空间 表示 。 其 中 ，% 轴 对 
应 高 斯 模型 变换 后 的 head enron 0 0.2 0.4 0.6 0.8 1 
特征 CR 10-20) 。 Yy 轴 对 应 用 统 head:enron (高 斯 模型 ) 
计数 表示 的 body: enron 特征 。 
对 角 线 就 是 一 个 分 类 超 平 面 ， 因 


body:enron (出 现 次 数 》 





图 10-9 一 个 线性 可 分 的 例子 ， 带 一 个 分 类 超 平面 


为 所 有 的 正 例 都 在 该 对 角 线 的 一 390 O + 
边 ， 而 所 有 的 反例 都 在 另外 一 边 。 a O On" 


因此 ， 它 是 一 个 完美 的 分 类 器 一 一 非 垃圾 邮件 On 
至 少 对 于 样本 数据 来 说 是 这 样 的 。 20 a 

图 10-10 说 明了 同一 条 线 在 同 
源 样本 数量 增加 后 不 再 是 一 个 分 
类 超 平面 ， 实 际 上 ， 已 经 不 存在 
一 个 分 类 超 平面 了 。 但 是 ， 越 来 
越 多 的 正 例 落 到 了 垃圾 邮件 一 边 ， 
而 越 来 越 多 的 反例 落 到 了 另 一 边 。 ° 
因此 这 条 线 仍然 是 一 个 合理 的 分 


一 
a 


body:enron (出 现 次 数 ) 





0 0.2 0.4 0.6 0.8 1 


类 器 。 但 是 它 是 该 向 量 空 间 里 最 head:enron (高 斯 模型 ) 


好 Chest) WREDA? 如 果 


图 10-10 一 个 数据 量 更 大 但 线性 不 可 分 的 例子 
只 使 用 训练 数据 ， 该 怎么 选择 呢 ? 


© www. csie, ntu. edu. tw/~cjlin/liblinear 
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答案 就 在 于 “最 好 ”的 定义 。 

如 果 所 有 点 都 是 线性 可 分 的 ， 那 一 般 都 可 以 找到 无 限 多 个 分 类 超 平 面 。 图 10-11 中 给 出 
的 所 有 正 例 线性 组 合 的 极端 曲线 将 正 例 和 反例 区 分 开 来 。 即 使 存在 一 个 超 平 面 。 也 不 太 看 得 
出 来 最 好 的 分 类 器 是 一 个 分 类 超 平面 。 如 果 假 设 有 用 信息 (0.72, 23) 是 独 异 点 一 可 能 在 
训练 数据 中 这 是 错误 的 一 一 可 以 合理 选择 图 10-12 中 的 垂直 分 割 线 ， 它 反映 了 第 二 个 特征 是 
没有 实际 作用 的 这 一 假设 。 但 事实 上 ， 原 来 的 分 类 器 〈 即 图 10-10) 是 更 适合 的 。 然 而 ， 我 
们 这 里 只 关注 基于 训练 数据 的 选择 。 关 于 什么 才 是 最 好 的 分 类 器 ， 图 :10-9 与 图 10-12 展示 
了 两 个 完全 对 立 的 观点 : 

。 一 种 是 正确 分 类 所 有 的 训练 样本 ,同时 最 大 化 超 平面 与 离 它 最 近 的 样本 的 距离 “图 

10-9) 。 
。 另 一 种 是 允许 部 分 样本 分 类 错误 ， 同 时 增加 其 他 样本 到 超 平面 的 距离 (图 10-12). 


30 








34 o ve 
非 垃圾 邮件 © 47° 
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0 0.2 0.4 0.6 0.8 1 
head:enron (高 斯 模型 ) 


图 10-11 一 个 线性 可 分 的 例子 ， 存 在 两 个 分 类 超 平面 。 哪 一 个 “更 好 ” 


30 非 垃 圾 邮件 | 垃圾 邮件 
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0 0.2 0.4 0.6 0.8 1 
head:enron (高 斯 模型 ) 


图 10-12 忽略 一 个 点 


第 10 章 分 类 和 过 滤 . 241 


10.4.1 感知 器 算法 


感知 器 算法 (图 10-13) 先 代 地 找 出 一 个 分 类 超 平面 一 一 或 任何 分 类 超 平面 ， 如 果 存 在 
一 个 分 类 超 平 面 一 一 就 以 一 个 权重 向 量 8 开始 ， 在 由 有 指定 的 超 平面 的 错误 区 域内 ， 对 于 每 
一 个 样本 可 以 是 升序 的 ， 也 可 以 是 降序 的 。 算 法 忽略 已 正确 分 类 的 样本 = 如 果 样 本 是 线性 可 
分 的 ， 则 算法 在 有 限 步 内 收敛 ， 否 则 算法 不 终止 。 对 于 实际 应 用 而 言 ， 经 过 一 段 时 间 后 ， 假 
设 找到 一 个 足够 好 的 分 类 器 ， 就 算 不 是 在 任何 意义 上 都 最 优 ， 算 法 也 可 以 停止 了 。 感 知 器 算 
法 对 于 过 滤 而 言 是 适合 的 ， 因 为 它 简 单 、 可 增 量 并 自 适应 。 








输入 : 
训练 样本 集 TCD, 训练 样本 dET, 表示 为 xz[d] 一 《〈1， xj, whl, “oy opil) 
标记 函数 label: T> {—1, 1} 


H: 
如 果 线 性 可 分 ， 输 出 8 使 得 8 eldo, MHAM label (d) =1 时 ， 
否则 ， 算 法 无 法 终止 。 
1 6 一 (0...， 0) 
2 while Jser: 6- x!” . label(d) <0 do 
3 Be B + al" . label(d) 


图 10-13 感知 学 习 算法 


间隔 感知 器 (margin perceptron〉 算 法 为 那些 接近 超 平面 且 落 在 分 类 正确 区 域 上 的 样本 
和 所 有 落 在 错误 区 域 的 样本 增加 值 5。 间隔 定义 为 在 欧 几 里 得 空间 中 离 超 平面 最 近 的 样本 到 
超 平面 的 距离 。 间 隔 感 知 器 (图 10-14; 参见 Sculley 等 人 (2006)) 加 入 了 一 个 间隔 参数 7， 
使 该 方法 偏向 于 选取 间隔 值 较 大 的 分 割 线 。 在 标准 感知 器 算法 停止 时 ， 间 隔 感知 器 还 会 调整 
超 平面 直至 6T 的 间隔 满足 。 注意 到 每 一 步 | 8 | 都 会 增 大 ， 不 断 地 减少 间隔 直到 找到 一 个 


合适 的 超 平 面 。 然 而 ， 并 不 能 保证 可 以 找到 最 大 的 可 能 间隔 〈 即 最 小 的 可 能 的 | 8 | )， 但 只 
要 7 足够 大 ， 间 隔 感 知 器 一 般 都 能 找到 一 个 合理 的 近似 。 

















输入 : 
训练 样本 集 TCD， 训 练 样本 dE 个， 表示 为 s= (1, efel, af, e, ek) 
标记 函数 label: T> {—1, 1} 
间隔 参数 了 

输出 


如 果 线 性 可 分 ， 输 出 6， 使 得 当 label Cd) 一 1 时 ，p8.z[d] 之 Ti 当 label (d) 一 一 1 时 , peol<—r, 
否则， 算法 无 法 终止 。 

1 B—(0,...,; 0) 

2 while Jucer: 8- zx” . label(d) < do 

3 B — B +a!” . label(d) 


图 10-14 间隔 感知 器 











10.4.2 支持 向 量 机 

支持 向 量 机 (support vector machine, SVM) 直接 计算 分 类 超 平面 ， 使 离 超 平面 最 近 
样本 的 间隔 或 距离 最 大 。 到 超 平面 距离 相等 的 若干 点 被 称 为 支持 向 量 (support vector), P 
生 的 分 类 器 是 这 些 向 量 的 一 个 线性 组 合 一 一 其 他 点 可 以 忽略 。 支 持 向 量 机 更 倾向 得 到 如 图 
10-9 的 结果 (而 不 是 图 10-11) ， 有 用 信息 的 支持 向 量 为 《0，0)， 0. 72，23?， 垃 圾 信息 的 
支持 向 量 为 《0. 72，20)。 

对 于 不 可 分 数据 ， 或 被 少数 点 严重 影响 的 可 分 数据 “如 图 10-12 或 我 们 训练 数据 中 的 点 
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《0. 72，23》)， 不 要 要 求 所 有 的 训练 样本 都 被 正确 分 类 。 支 持 向 量 机 需要 在 最 大 化 间隔 与 最 
小 化 训练 误差 间 找 到 平衡 点 。 平 衡 系 数 C 表示 后 者 相对 于 前 者 的 权重 。C=0 表明 SVM 仅 
IRER H; C= 表示 这 两 者 权重 相等 ， 同 等 重要 ， 一 般 都 是 用 这 个 作为 默认 值 ，C = 
100 表示 给 第 二 项 很 大 的 权重 ,经验 表明 ， 这 适用 于 过 滤 垃 圾 信息 (参见 Drucker 等 人 
(1999) 或 Sculley 等 人 (2006))。 

很 多 软件 包 都 实现 了 SVM， 其 中 包括 Weka, SVM-light® 和 LibSVMS 。Sculley 和 
Wachman (2007) 提出 了 利用 SVM 来 实现 有 效 的 增 量 在 线 过 滤 的 梯度 方法 。 


10.5 ”基于 相似 度 的 分 类 器 


本 节 将 介绍 基于 相似 度 的 分 类 器 ， 它 利用 的 假设 是 相似 文档 比 不 相似 文档 更 有 可 能 属于 
同一 类 。 对 于 分 类 ， 把 相似 度 的 概念 形式 化 为 一 个 函数 sim: DXD>R, HP sim (di, 
ds) >sim (d;, ds) 表示 在 某 种 意义 上 di 与 d: 比 d; 与 ds 更 相似 。 与 这 最 相似 的 例子 
是 第 2 章 中 介绍 的 信息 检索 里 的 向 量 空间 模型 ， 在 那里 sim 是 个 余弦 公式 Ñ 2-12): 

git) .zlaa] 
a ， a 

对 于 不 带 历 史 样 本 的 面向 主题 的 过 滤器 ， 文 档 可 以 根据 它 与 查询 g 的 相似 度 进 行 排名 ， 

就 与 排名 检索 一 样 ， 由 此 可 得 到 一 个 软 分 类 器 : 
c(d)= sim(d,q) (10-52) 

如 果 有 历史 样本 ， 就 可 计算 a 与 历史 样本 中 某 个 文档 或 全 部 文档 的 相似 度 ， 然 后 根据 
这 些 结果 对 a 进行 分 类 。 现 在 定义 一 个 新 的 相似 度 函 数 以 形式 化 这 种 方法 Sim: 
DX2°->R, Hh Sim (d, D) 表示 d 与 集合 D'CD 中 的 文档 的 相似 度 。 各 种 基于 相似 度 
的 分 类 器 的 区 别 主要 在 于 如 何 定义 函数 sim, WAR Sim 如 何 从 sim 演化 出 来 。 


sim(di1, d2) = (10-51) 


10.5.1 Rocchio 法 


Rocchio 法 (CRocchio, 1971) 定义 
Sim(d, D') = sim(d,d’), 其 中 £”? = Di Dz (10-53) 
deD’ 
其 中 ，D' 用 一 个 虚拟 文档 a' 表 示 ，a’ 的 特征 向 量 就 是 D' 中 所 有 文档 的 质心 。 形 式 最 简单 的 
Rocchio 分 类 器 仅 使 用 了 训练 样本 的 正 例 ， 
c(d) = Sim(d,T N P) (10-54) 
对 于 分 类 ， 当 正 例 训练 样本 和 反例 训练 样本 都 存在 时 ， 可 用 以 下 差 值得 到 一 个 更 好 的 分 
类 器 
c(d)= Sim(d,T N P) — Sim(d,T N P) (10-55) 
在 向 量 空间 模型 中 ，Rocchio 法 曾 被 广泛 用 作 相关 反馈 。 正 如 向 量 空间 模型 中 不 再 使 用 余弦 
指标 一 样 ，Rocchio 法 也 不 再 使 用 了 ， 如 BM25 这 样 的 相关 反馈 方法 取得 了 更 好 的 效果 。 不 
难看 出 Rocchio 法 其 实 是 一 个 线性 分 类 器 ， 但 它 的 性 能 不 如 这 里 介绍 的 其 他 分 类 器 。 





© www. cs, waikato. ac. nz/ml/weka 
© svmlight. joachims. org 
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应 用 在 语言 分 类 和 垃圾 信息 过 滤 (10. 1 节 ) 的 BM25 可 以 看 做 Rocchio 法 的 一 个 变种 ， 
sim 的 定义 是 采用 BM25 相关 反馈 公式 ， 而 不 是 余弦 指标 。 


10.5.2 ”基于 记忆 的 方法 


基于 记忆 (memory-based) 的 方法 ， 也 被 称 为 基于 事例 (case-based) 的 方法 ， 用 训练 
样本 本 身 作 为 分 类 器 的 概要 文件 。 当 需要 分 类 某 个 文档 或 文档 集 时 ， 就 搜索 这 些 样本 。 也 
许 ， 最 简单 的 基于 记忆 的 方法 就 是 最 近邻 法 (nearest neighbor，NN) ， 一 般 认 为 该 分 类 器 
属于 硬 分 类 器 : 


cn(d) = label (org max sim(d, a’) (10-56) 
der 


如 果 sim 刚好 是 前 面 已 经 介绍 过 的 标准 搜索 任务 里 的 排名 方法 之 一 ， 那 么 最 近邻 分 类 
器 可 通过 索引 训练 样本 然后 用 搜索 引擎 检索 最 相似 的 文档 来 实现 。 和 否则 ， 需 要 为 每 个 ET 
计算 sim (d, dh. l 
更 常见 的 做 法 是 : 我 们 先 计算 一 个 最 近邻 软 分 类 器 ， 然 后 推导 出 一 个 硬 分 类 器 : 
Sim(d, D’) = max sim(d, d’) (10-57) 
cs(d) = Sim(d, T N P) — Sim(d, T N P) | (10-58) 


ch(d) = pos (c(d) > 0) (10-59) 
neg (cs(d < 0) 
cs 的 有 效 实现 包括 为 Tu。 与 Te 构造 独立 的 搜索 索引 。 
一 个 简单 的 变形 算法 是 RER (nearest neighbor，KNN)， 其 中 对 于 固定 的 k， 只 
考虑 与 4 最 相似 的 上 个 文档 。 这 样 一 个 硬 分 类 器 便 可 定义 为 最 相似 的 上 个 文档 的 主要 投票 。 
CBP d 的 类 别 由 个 文档 中 最 多 的 类 别 来 决定 一 一 译 者 注 ) 


10.6 广义 线性 模型 


前 面 已 经 提 到 ， 特 征 工程 与 分 类 器 构造 这 两 者 之 间 没 有 本 质 的 区 别 。 通 过 选择 合适 的 特 
征 表示 zc ， 我 们 可 以 将 任何 分 类 问题 完全 转换 成 一 个 线性 分 类 器 能 解决 的 问题 。 目 前 我 所 
用 的 例子 依赖 于 下 面 这 些 特征 工程 : 
。 对 于 概率 分 类 器 ， 采 用 logit 变换 一 一 称 为 关联 函数 (link function) 或 变换 函数 
(transfer function) 将 问题 转化 为 线性 分 类 问题 。 
。 对 于 线性 分 类 样本 ， 对 其 中 一 个 维度 运用 高 斯 变换 。 
图 10-15 展示 了 未 经 变换 的 线性 分 类 样本 。 两 个 维度 的 特征 表示 都 是 原始 词 频 。 在 这 
里 ， 我 们 将 用 以 下 这 些 概念 将 特征 的 原始 表示 和 变换 表示 区 分 开 来 : 
. cR d 的 特征 的 原始 (raw) 表示 。 这 个 例子 中 ，x[ 中 是 由 两 个 词 频 组 成 的 向 量 。 
通常 ， 在 某 种 意义 上 xw[ 中 是 文档 a 的 直接 表示 。 
e =p (all) 是 文档 d 的 特征 的 变换 (transformed) RR, HP o 是 一 个 映射 函 
数 。x 是 一 个 向 量 空间 ， 它 的 维度 不 需要 与 x 相同 。 如 果 维 度 比 原来 的 少 ， 则 是 运 
THR (dimensionality reduction) 。 否 则 维度 可 能 会 变 大 ， 甚 至 于 无 限 大 。 
对 于 后 者 ， 可 用 核 方法 (kernel method) 在 和 上 构造 线性 分 类 器 ， 而 不 需要 计算 
X'4] 。 感 知 器 分 类 法 与 SVMs 都 可 用 作 核 方法 。 
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0 5 10 15 20 25 30 
head:enron (出 现 次 数 ) 


图 10-15 未 经 变换 的 特征 
使 用 公式 (10-34)， 为 样本 得 到 一 个 映射 


Xd word) = Np gu P) Ca, pz 四 ) 四 
= p(x) = (He ` In ponp aT) T2 ) (10-60) 
(1,B)’ la, Pp ti 
注意 到 ， 可 在 特征 工程 的 某 个 步骤 中 从 训练 样本 里 估计 得 到 四 个 参数 : wp Cs, Povo C1, 
Pip, Pio (1,，P)。 另 外 一 种 方法 为 这 些 参 数 推测 几 个 值 ， 然 后 看 看 哪 一 个 效果 更 
好 ， 这 个 过 程 称 为 参数 选择 (parameter selection) ， 更 通俗 一 点 的 说 法 是 调整 (tuning)。 同 
ke, 我们 也 可 以 推测 p。 推 测 p 及 其 参数 的 过 程 称 为 模型 选择 (model selection). 在 评价 一 
个 构造 过 程 涉及 参数 或 模型 选择 的 分 类 器 时 ， 至 关 重 要 的 是 评价 〈 即 测试 ) 数据 无 法 验证 
(算法 的 效果 一 一 译 者 注 )。 一 个 常用 的 方法 是 将 训练 样本 分 成 训练 集 与 验证 Cvalidation) 
E (将 会 在 11 章 详细 介绍 ) 。 现 在 我 们 暂时 假设 o (包括 与 它 有 关 的 任何 参数 ) 是 已 知 的 。 
为 了 便于 说 明 ， 我 们 考 虚 相 同 数据 上 的 另外 一 个 映射 g+ ， 增 加 了 e 的 维度 ， 变 成 三 维 
空间 : 


[di 
N 0 a 
or(z 四 ) = (at, 2 ra, NP earan) (10-61) 


"Ns g(a Py FQ, By at ]) 


这 个 映射 使 整个 空间 变 得 立体 了 ， 它 沿 着 新 的 第 三 维 从 平面 上 凸显 了 正 例 ， 使 得 反例 往 


相反 方向 凹陷 。 在 这 个 新 的 三 维 空间 中 ， 样 本 是 线性 可 分 的 。 并 且 ， 第 一 维 是 不 必要 的 ， 因 
为 去 掉 它 使 空间 减 为 二 维 空 间 后 ， 样 本 依然 是 线性 可 分 的 : 


g(x) = (x, xi") (10-62) 
原来 的 映射 p Ree ot So 的 组 合 。 
g(x!) = p (pt (a!4)) (10-63) 
核 方法 
一 个 线性 分 类 器 可 以 重新 定义 为 一 个 基于 相似 度 的 分 类 器 ， 其 中 
sim(di, dz) = X|% .ta] (10-64) 


现在 考虑 特征 空间 x 是 线性 可 分 的 情况 。 感 知 器 算法 可 以 用 于 计算 权重 向 量 8 使 得 
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e(d)=6-X! cdeP)>0 cdeP)<0 (10-65) 
由 图 10-13 3 可知， 有 是 训 统 集中 的 正信 与 反例 的 线性 结合 ， 其 中 正 例 的 系数 均 取 非 负 值 ， 
反例 的 系数 均 取 非 正 值 ， 即 有 : 
B= 5 aX"! ager >0 Qaep < 0 (10-66) 
deT 
这 里 a 是 一 个 权重 向 量 ,， 工 中 的 每 个 文档 都 有 一 个 这 样 的 向 量 。 联 立 公式 (10-64)、 公 式 
(10-65) 和 公式 〈10-66)， 得 到 分 类 器 的 对 偶 公 式 《dual formulation) : 
c(d) =(》， ag > all). gl = > aa (zedl . gld) = 5 ag: - sim(d, d') (10-67) 
d'ET d'ET deT 
除了 在 sim 的 定义 中 ， 对 偶 公 式 并 没有 用 到 X[e] 。 核 感知 器 (kernel perceptron) BH (图 
10-16) 采用 这 种 表示 方式 并 计算 c〈 而 不 是 JP ， 因 此 更 新 规则 变 为 
B — B + X!’ . label(d) ad — Qa + label(d) (10-68) 
因此 核 感知 器 需要 用 到 sim 与， 但 不 需要 计算 XI 中 或 6。 其 他 方法 ， 包 括 间隔 感知 器 和 
SVM 等 ， 均 可 形式 化 为 核 方 法 。 





RA: 
| 训练 样本 集 TCD， 训 练 样本 de T， 样 本 可 任意 表示 
brid ee label, T> {—1, 1} 


相似 度 GK) 函数 sim: DX D>-R, HP simdi, dz) = Xid]. Xl] ENERE A X E 


如 果 线 性 可 分 的 ， 输 出 使 得 c(d) 盖 0， 当 且 仅 当 label (d)=1, 其 中 e(d =E rerarsim(d', d). 
否则 ， 算 法 无 法 终止 。 

1 a({0,...,0) . 

2 while Auer : c(d) - label(d) < 0 do 

Qa — aa + label(d) 





w 








| 
图 10-16” 核 感知 器 学 习 算 法 


所 谓 的 核 技巧 (kernel trick) 就 是 不 需要 X 就 能 实现 sim (di;，d:;)， 因 此 也 避免 了 计 
BX, REBAR (10-64) 成 立 ， 采 用 任何 的 实现 方式 均 可 以 。 这 种 实现 方法 称 为 核 函 数 
(kernel function) 。 核 技巧 允许 我 们 使 用 大 量 甚至 无 限 多 个 虚 特 征 ， 这 在 其 他 技术 里 是 不 可 
能 的 。 


例如 ， 现 在 有 一 个 文档 集 a ED， 且 它 的 原始 特征 表示 H, h n 个 词 频 组 成 。 这 里 不 


使 用 传统 的 余 汞 法 则 直接 构造 一 个 线性 分 类 器 ， 而 是 根据 两 个 文档 中 词 频 相同 的 词 项 数量 定 


义 相 似 度 ， 
sim(d),d2)= |{i € [1, n] |z% = ze]1 (10-69) 


一 般 来 说 ，f 二 wi 中 可 取 无 限 大 的 数 ， 但 通过 定义 一 个 从 Cf, D 到 N 映射 +， 即 可 枚 举 所 
有 可 能 的 值 : 


"(f=i+n:f (10-70) 
给 定 x， 定 义 虚 特 征 表示 XO 
id 1 (=f) 
Xalfa 0 (2f) (10-71) 


在 这 个 空间 中 ， 有 sim (dis dz) =X . XG), (ARE oll AM wll, AE 
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xt ] 和 Xe 来 实现 sim, 

特征 空间 与 核 函 数 的 设计 只 受 限 于 人 的 想象 力 。 标 准 例 子 包括 字 符 串 核 、 多 项 式 核 、 径 
HERA CHT) 核 。SVM 包 通 常 支 持 多 种 核 函 数 ， 包 括 用 户 自 定义 的 核 函 数 ， 其 中 sim 
函数 由 编程 语言 决定 。 | 


10.7 ”信息 理论 模型 


一 个 模型 (model) 就 是 从 已 知事 件 中 估计 某 些 事件 发 生 的 概率 。 气 象 学 家 可 能 会 使 用 
像 湿度 与 大 气压 这 些 依 据 ， 从 而 预测 明天 下 雨 的 机 会 为 80% 。 在 这 个 例子 中 ， 需 要 预测 的 
事件 是 下 雨 ， 气 象 模 型 估计 的 是 PrLrain ] ~0. 8 与 PrLnot rain] %0. 2。 

在 第 6 章 中 ， 我 们 介绍 了 几 个 数据 压缩 模型 ， 这 些 模型 都 假设 模型 人 准确 预测 了 来 自 
字母 表 S 的 每 个 符号 s: 

Vses Pr[si] = M(s:) (10-72) 

这 里 ， 我 们 做 相反 的 假设 : 任何 实际 模型 At 都 不 必 是 精确 的 ， 如 果 比 其 他 模型 更 接近 
真实 概率 ， 那 就 说 M 比 M' 更 好 。 但 是 判别 M 和 AM' 哪 一 个 更 好 ， 有 两 个 挑战 ; 

。 HM (true probability) 是 无 法 得 到 的 ， 无 法 将 其 作为 比较 时 的 “黄金 标准 ”。 

。 概念 “接近 ”存在 多 种 可 能 的 解释 。 

假设 这 些 问题 都 已 经 解决 了 并 旦 我们 也 有 一 个 方法 来 判断 哪 一 个 是 更 好 的 模型 ， 则 可 以 
通过 以 下 两 个 方法 之 一 来 构造 一 个 分 类 器 : 

© 分别 根 据 训 练 样本 中 的 正 例 和 反例 建立 数据 压缩 模型 (data compression model) ， 并 

使 用 它们 估计 一 个 未 知 文档 的 似 然 比 : 





Atp(dsPrldldeBP Msp(d)~Prlald € P| (10-73) 
_Mp(@) ,i 
cs(d) = Mpd) ~ LR(d € P,d) (10-74) 
。 从 多 个 候选 模型 中 选 出 一 个 最 符合 训练 样本 标签 的 模型 MA{ ， 并 使 用 人 本 身 进 行 分 类 : 
cs(d) = M(label(d) = pos|d) ~ Pr[d € Pldl (10-75) 


这 个 方法 通常 用 于 构造 决策 树 分 类 器 (decision tree classifier) 。 更 一 般 的 ， 这 种 方法 被 
称 为 模型 选择 (model selection). 


10.7.1 模型 比较 
定义 P(z) 为 假设 事件 x 为 真 时 的 概率 ， 定 义 M 为 这 个 概率 的 模型 ， 
1 M(x) P(x) = Pr[z] (10-76) 
Ip (ZX) 表示 给 定 DIK. x 所 含 的 信息 量 (information content) ， 单 位 是 位 (bit): 
Ip(x) = — loga P(x) (10-77) 
1t(P) 是 分 布 P 下 随机 变量 X AHR (entropy), PPAR AMEE): 
H(P) =ElIp(X)]|= >? - Ip(z) (10-78) 


XCP) 表 示 编码 X 所 需 的 比特 位 的 理论 下 界 。 当 且 仅 当 用 Ip (x) 位 为 每 个 w 编码 时 ， 才 
能 达到 这 个 下 界 。 
如 第 6 章 中 介绍 的 那些 实际 的 数据 压缩 方法 ， 出 于 以 下 两 个 原因 是 达 不 到 这 个 下 界 的 : 
。 在 AM(z) 一 P(z) 的 假设 下 ， 编 码 每 个 > 大 约 需要 Lm (x) 位 ， 因 此 优化 的 是 KCM) 而 
不 是 1 (P) 。 
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。 一 般 来 说 ，IM(%) 不 是 一 个 整数 ， 因 此 会 浪费 了 部 分 编码 位 数 。 
首先 考虑 的 一 个 问题 是 ， 用 个 I%《%) 位 对 x 编码 后 ， 离 下 界 还 差 多 远 ? 分 布 P 下 的 随 
机 变量 X 的 期 望 长 度 由 PP 与 MM 的 交叉 炳 (cross-entropy) 决定 : 


H(P; M) =ElIm(X)] = 32 P(e): .Tta) (10-79) 
ZUA (ASK EE) 5A GRO TR) 的 差 就 是 KL 距离 (KL divergence) ( 见 9.4 节 ): 
Drx(P || M) = H(P;M) — H(P) (10-80) 
如 果 模 型 M1 所 需 的 期 望 编码 长 度 比 模型 Mz 要 短 ， 我 们 就 说 模型 M1 WR, 更 好 ， 即 
H(P; M1) < H(P; M2) & Dgi(P || Mi) < Dxx(P || Moa) (10-81) 
s YO P(2) - Um (2) — Im (2))<0 (10-82) 


10.7.2 序列 压缩 模型 


如 部 分 匹配 预测 (prediction by partial matching, PPM) (Cleary 和 Witten, 1984), 
动态 马尔 可 夫 压 缩 (dynamic Markov compression, DMC) (Cormack 和 Horspool, 1987) 
与 上 下 文 加 权 树 (context-tree weighting, CTW) (Willems 等 人 ，1995) ， 这 些 都 是 序列 压 
缩 模 型 ， 它 们 把 信息 m 看 做 一 个 有 限 字 母 表 中 的 符号 序列 sl s*…s*。 先 按 序 处 理 这 些 符 
号 ， 然 后 轮流 对 每 个 前 缀 s18，…s; 单独 建立 一 个 模型 MC(0 志 上 二 n)。 每 个 模型 Mx MFE 
缩 sx+1， 然 后 就 被 丢弃 掉 。 整 个 信息 的 模型 MM 为 


n-1 
M(m)= [| Me(se+1) (10-83) 


k=0 


在 这 个 模型 中 ,信息 m 的 最 优 编码 长 度 为 
Imm) = > Tm (Sk+1) (10-84) 
k=0 i 


为 了 进行 分 类 (Bratko 等 人 ，2006) ， 我 们 将 每 个 文档 d 表示 为 符号 序列 mr， 然后 将 
所 有 的 mE (训练 样本 的 正 例 ) 连接 起 来 ， 构 成 一 个 子 序列 m; 也 将 所 有 的 
MEETRI (训练 样本 的 反例 ) 连接 起 来 ， 构 成 一 个 子 序 列 m”。 这 样 就 为 这 些 序列 建立 了 两 
个 序列 模型 Mo 与 M5 。 当 需要 对 一 个 新 信息 MORTON, HEARS m Am? ez 
接 ， 得 到 两 个 新 的 模型 Mtm 与 Ata 。 构 造 软 分 类 器 如 下 : 
jn PrimPmi|de Pl], PrlmP\de P] _ [a] _ 
(Do 108 pr mimalacB PrimFlde B) EROS Pm) (10-85) 
c(d) = Ipy(mPm!4) — Ip(m?) — Ipa(m? m!) + Ip(m?P) (10-86) 
也 就 是 说 ， 分 类 器 就 是 将 文档 d 归 为 反例 时 信息 的 增加 量 与 归 为 正 例 时 信息 的 增加 量 的 
差 值 。 | 
实际 应 用 中 ， 不 需要 一 开始 就 计算 Mm 与 Miz。 序 列 压缩 法 可 以 从 已 有 的 Mp SMe, 
以 及 ml 中 中 有 效 构造 出 Ms 与 Miz。 如 果 发 现 4 EP， 就 用 Mrs 替代 AMp， 发 现 dEP， 就 用 
人 4 本 替代 人 A4z ， 那 增 量 训练 过 程 很 容易 受到 影响 。 
我 们 用 动态 马尔 可 夫 压 缩 (DMC) 来 进行 解释 ， 这 是 性 能 较 好 的 最 简单 的 方法 。DMC 
将 每 个 信息 都 看 成 是 一 段位 序列 ， 文 本 格式 则 用 ASCII 或 Unicode。 因 此 ， 信 息 表示 成 一 段 
符号 序列 (符号 为 0 或 1 的 )。 图 10-17 说 明了 DMC 的 工作 原理 。 开 始 ， 初 始 马尔 可 夫 模 型 
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《 见 1.3.4 节 ) 只 有 很 少 几 个 状态 ， 如 图 10-17a 所 示 。 信 息 都 被 处 理 为 一 段 二 元 位 序列 ， 因 
此 状态 之 间 的 转换 标记 为 0 或 1。 每 个 转换 上 还 标记 了 一 一 个 频率 ， 记 录 经 过 它 的 总 次 数 。 由 
此 可 知 ， 图 10-17a 在 训练 时 使 用 的 是 一 段 长 22 位 的 序列 ， 其 中 有 16 位 是 1，6 位 是 0。 状 
态 A 表示 一 段 最 后 一 位 为 0 的 序列 ， 状 态 B 表示 一 段 最 后 一 位 是 1 的 序列 。 从 一 个 状态 转 
BELA EUR MEA FAR: 


Odds[1|A]~==2 H Oddsl1|B] = Z 3 (10-87) 


方法 与 在 线 分 类 器 一 样 首先 使 用 概率 信 计 公式 信 计 下 一 位 ， 然后 转移 到 正确 的 状态 ， 对 应 
的 概率 也 会 增 大 。 

如 果 转 换 过 程 中 某 个 状态 经 常 被 访问 到 ， 那 就 将 其 复制 〈cloned) 为 两 个 相似 的 状态 
这 种 情况 如 右 图 b) 所 示 : 开始 ， 当 将 要 从 状态 A 转移 到 状态 B 时 ， 把 经 过 这 条 弧 的 频率 增 
加 到 5; 然后， 复制 状态 B， 得 到 B ， 并 把 那 条 高 频 弧 重 定向 到 B 。 状 态 B 与 B' 的 出 度 按照 
它们 的 入 度 来 分 配 ， 因 此 Odds[1| B’']=Odds[1|B]=3; 最后， 转移 到 状态 B ， 并 增加 经 过 
那 条 弧 的 频率 。 通 过 状态 复制 ， 马 尔 可 夫 模 型 逐步 增加 训练 样本 中 已 建 模 的 子 字 符 串 的 长 
度 。 在 这 个 例子 中 ，B' 表 示 以 01 结尾 的 字符 序列 模型 ，B 表示 以 11 结尾 的 字符 序列 模型 。 
而 状态 A， 与 复制 前 一 样 ， 表 示 以 0 结尾 的 字符 序列 模型 。 


a) b) 


En oi 
A ( B) ) lan? 1=12 Op “la 全 


“Ure L 
1e Ra 正在 复制 状态 B_ ‘the "> (B — _ > M9 


图 10-17 DMC 马尔 可 夫 模型 的 复制 操作 








“~Q//=4- 


DMC 某 个 实现 版 本 可 以 从 网 上 免费 下 载 .S 表 10-22 列 出 了 运用 两 个 DMC 模型 (一 个 
针对 有 用 信息 ， 一 个 针对 垃圾 信息 〉 来 顺序 处 理 运 行 样 例 中 的 18 MAB HA To; field ( 参 
SLR 10-17) 的 结果 。 表 10-22 的 第 一 列 列 出 了 信息 的 正确 类 别 ; 第 二 列 列 出 了 整体 对 数 似 
然 比 e(d); 第 三 列 列 出 了 To: field 的 信息 。 加 深 的 字符 x; 表示 对 数 似 然 比 与 该 字符 相关 
〈 即 字符 中 每 个 位 的 对 数 似 然 比 的 和 ): 黑色 表示 垃圾 信息 (logLR(d E spam, x;)>>0); 
浅 灰 色 表 示 有 用 信息 〈logLR(QE spam, wi)< 志 0); 中 灰色 表示 不 属于 任何 一 个 类 别 
ClogLR (Cd € spam , 00i)s0) 。 

第 一 条 信息 是 灰色 的 ， 并 且 因 为 它 前 面 没 有 任何 信息 ， 所 以 对 数 似 然 比 为 0。 这 时 垃圾 
信息 的 模型 与 有 用 信息 的 模型 是 完全 一 样 的 。 紧 接着 的 两 条 信息 都 被 分 类 为 垃圾 信息 正 
确 )， 这 并 不 奇怪 ， 因 为 暂时 没有 有 用 信息 样本 可 作 比 较 。 第 四 条 信息 一 一 第 一 条 有 用 信 





多 ,模型 从 有 用 信息 中 识别 出 垃圾 信息 的 能 力 越 来 越 强 。 最 后 7 条 信息 全 部 被 正确 分 类 。 可 
以 从 各 种 独立 特征 中 归纳 出 有 用 信息 的 一 些 关键 特 征 ， 
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。 引号 

。 全 部 大 写 的 词 条 “ENRON” 

。 专 有 姓名 ， 如 Adams 和 pete. davis 
垃圾 信息 的 特征 有 : 

。 全 部 小 写 的 词 条 “enron” 

。 名 字 kholst 的 各 种 变形 


表 10-22 对 信息 中 的 To: field 运用 DMC 得 到 的 结果 ， 按 信息 出 现 的 顺序 进行 在 线 学 习 。 
第 一 列 给 出 了 正确 的 类 别 。 第 二 列 给 出 了 DMC 算出 的 对 数 似 然 比 。 正 数 表 示 垃 
圾 信息 ， 负 数 表 示 有 用 信息 。 第 三 列 给 出 了 信息 文本 ， 黑 色 字 体 表示 高 垃圾 信 
息 可 能 ， 浅 灰色 字体 表示 低 垃圾 信息 可 能 。 为 了 方便 讨论 ， 仅 采用 了 To: field 
这 部 分 信息 ; 如 果 要 得 到 更 好 的 结果 ， 可 以 使 用 完整 的 信息 





类 别 得 分 信息 片段 
垃圾 信息 . 0.0 To: emclaug@enron.com co 
垃圾 信息 3.9 To: sKean@enron.com 
垃圾 信息 0.1 To: <joydish@hareed.aiburag.net> 
有 用 信息 1.1 To: “Shapiro, Richard” <Richard.Shapiro@ENRON.com> 
有 用 信息 -0.8 To: “Adams, Jacqueline P." <Jacqueline.P.Adams@ENRON. com>, 
有 用 信息 -4.4 To: "Adams, Jacqueline P." <Jacqueline.P.Adams@ENRON.com>, 
有 用 信息 1.5 To: pete. davisGenron.com 
垃圾 信息 1.0 To: KAM.KEISER@enron.com 
有 用 信息 -2.1 To: "Abel, Chris" <Chris.Abel@ENRON, com>, 
有 用 信息 -1.8 fo: "Moran, Tom" <Tom,Moran@ENRON. com>, 
垃圾 信息 -0.1 To: ngqeb5e6@man.com 
垃圾 信息 1.6 To: skean@enron.com 
有 用 信息 ~1.4 To: pete.davisGenron.com 
垃圾 信息 0.1 To: kholst <kholst@enron.com> 
有 用 信息 -1.1 fo: “Scott, Susan M.” <Susan.M.Scott@ENRON. com> 
垃圾 信息 0.8 To: mmot ley@enron.com 
垃圾 信息 3.2 To: kholst@enron.com 
垃圾 信息 3.1 To: keith. holst@enron.com 


利用 信息 相 邻 符号 之 间 的 关系 ， 可 将 数据 压缩 模型 用 于 过 滤 。DMC 使 用 一 个 按 位 动态 
马尔 可 夫 模 型 ， 逐 步 为 越 来 越 长 的 高 频 序列 建 模 。PPM 则 刚好 相反 ， 使 用 一 个 %-gram 字 
符 模型 〈 通 常 取 值 :<n 专 8)， 因 为 后 缀 树 表 示 比 特征 向 量 更 合适 (特征 向 量 需 要 用 到 线性 
空间 ) 。 在 特定 的 理论 假设 下 ， 采 用 上 下 文 树 加 权 得 到 的 结果 接近 于 最 优 ， 但 相 比 于 其 他 方 
法 ， 它 更 复杂 ， 而 且 得 到 的 结果 并 不 比 DMC 或 PPM 要 好 。 


10.7.3 ”决策 树 与 树桩 


决策 树 分 类 器 (decision tree classifier) 连续 地 将 DD 分 成 多 个 子 集 ， 使 得 每 个 子 集中 正 
例 的 比例 或 反例 的 比例 比 D 中 原来 的 比例 要 高 。 假 设 存在 一 棵 适当 划分 D 的 树 ， 那 么 此 树 
可 通过 T 中 的 样本 来 构造 。 

我 们 考虑 二 元 决策 树 ， 划 分 通过 一 组 布尔 公式 来 表达 ， 每 一 个 公式 指定 了 一 个 子 集 上 的 
二 元 划分 。 每 个 公式 通常 都 非常 简单 ， 基 于 某 个 二 元 特征 或 将 连续 特征 与 某 个 阔 值 进行 比较 
的 结果 。 

最 简单 的 决策 树 是 二 元 决策 树桩 (binary decision stump) ， 使 用 一 个 二 元 公式 b 将 DD 分 
成 两 个 子 集 : 


D={de Dib}, Di={de DÈ} (10-88) 
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决策 树 是 通过 不 断 地 划分 D 的 子 集 而 构造 出 来 的 。n 一 1 步 后 ， 就 得 到 n 个 不 相交 的 

子 集 : 
D=D,UDeU::-UD, . (10-89) 

E k=1 至 上 二 一 1 的 每 一 步 中 ， 需 要 进行 以 下 两 个 决定 : 

1) 确定 需要 划分 的 子 集 DAKIK). 

2) 确定 用 户 将 Di 划分 成 Di BD, 的 bi。 
挑战 就 在 于 如 何 进行 这 些 决 定 从 而 得 到 一 个 好 的 分 类 器 。 对 于 任何 合理 的 “好 分 类 器 ”的 定 
义 ， 这 个 问题 都 会 显得 很 棘手 ， 而 且 使 用 某 个 启发 式 信息 每 次 只 能 以 “贪心 ”的 方式 进行 一 
次 决定 。 这 时 通常 会 使 用 信息 增益 (information gain, IG). 

考虑 为 一 个 二 元 分 类 问题 建立 一 个 模型 M， 可 能 的 事件 分 别 是 pos 和 neg: 





M (pos) =1— M(neg) ~ Prlde P] (10-90) 
给 定 一 组 已 标记 的 训练 样本 TT， 可 利用 正 例 的 比例 建立 一 个 简单 的 模型 ， 
ITN P| 
M (pos) = IT] (10-91) 


训练 样本 的 标签 集 jabel(T)={iabel(Cd)1dET} 中 所 含 的 信息 量 可 表示 为 : 
Im(label(T)) = >》 Iu (label(d)) = |T P| Im(pos) + |T n P|- Iu(neg) 





2 (10-92) 
HESIA TO=TOD SP HTOD Sree. 
M,(pos) = IT? 0 PI (10-93) 
p(Po)= TI 
M,;(Pos) = ro? ~ Prld € Pb} (10-94) 
假设 对 于 已 分 类 文档 ，BE (b, b) 是 已 知 的 ， 则 组 合 模型 为 ; 
Mp=| Me (B=), Prld € P|B| (10-95) 
Ms (B=) | 
给 定 B， 则 训练 标签 的 信息 量 为 : 
Ims (label(T)) = Im, (Label (T°) + Ing, (label(T®)) (10-96) 
信息 增益 与 B 有 关 ， 当 B 已 知 时 ， 信 息 增益 是 指标 答 集 所 包含 的 信息 量 的 减少 量 : 
IG(B) = Inj (label(T)) — Imp (label(T)) (10-97) 


在 表 10-17 的 18 个 训练 样本 中 ， 有 10 个 是 正 例 ，8 个 是 反例 。 模 型 人 4 使 用 正 例 所 占 的 比例 
作为 概率 估计 : 


M (pos) = 75 ~ 0.556 (10-98) 
Im (label(T)) ~ — 10 : logy (0.556) — 8 .log2(0.444) œ 17.84 (位 ) (10-99) 
WAAR “bed 的 正文 中 包含 enron” 划 分 T， 有 : 
Ms(pos)= 5 ~ 0.444 (10-100) 
Ni(posj=5x0.667 (10-101) 
Im, (label(T°)) ~ —4 - log(0.444) — 5 - log(0.556) ~ 8.92 (位 ) (10-102) 
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Im;(label(T®)) ~ —6 - log(0.667) — 3 - log(0.333) = 8.26 (位 ) (10-103) 
Im, (label(T)) © 8.92 + 8.26 =17.18 (位 ) (10-104) 
IG(B)=Im — Ima © 0.66 (位 ) (10-105) 


为 了 建 一 棵 决策 树 ， 每 一 步 都 需要 搜索 可 能 的 公式 集 ， 并 选择 产生 最 大 信息 增益 值 的 公 
式 。 很 重要 的 一 点 是 ,不 要 搜索 出 太 多 的 可 能 公式 ， 或 构建 过 于 复杂 的 公式 ,或 将 D 分 成 
太 多 的 子 集 。 上 述 任何 一 种 做 法 都 可 能 导致 模型 对 训练 数据 过 度 拟 合 。 这 些 在 信息 论 中 都 有 
详细 的 解释 : 在 计算 信息 增益 时 ， 我 们 应 该 考虑 的 是 公式 本 身 包含 的 信息 量 ， 而 不 是 训练 样 
本 标签 中 包含 的 信息 量 。 如 果 从 n 个 固定 的 候选 集中 选择 公式 ， 它 的 信息 量 是 log (Mf. 
如 果 公 式 更 复杂 ， 它 的 信息 量 可 能 会 更 大 。 当 将 这 些 公 式 的 信息 量 都 结合 在 一 起 时 ， 训 练 样 
本 标签 的 信息 增益 是 个 负 值 ， 进 一 步 划 分 可 能 会 适得其反 。 


10.8 ”实验 对 比 


本 节 将 前 面 介绍 的 各 种 具有 代表 性 的 方法 应 用 到 10. 1 节 中 介绍 的 3 个 不 同 的 样本 集中 。 
为 了 便于 比较 ， 均 采用 BM25 得 到 的 结果 作为 基准 。 这 里 得 到 的 结果 只 是 为 了 让 读者 对 各 种 
方法 的 效果 有 个 大 概 的 印象 。 同 时 这 些 结果 也 将 作为 第 11 章 中 描述 的 联合 和 融合 的 方法 的 
输入 和 比较 基准 。 


10.8.1 面向 主题 的 在 线 过 滤器 


10. 1. 2 节 详 细 介 绍 了 面向 主题 的 过 滤器 会 出 现 的 问题 ， 表 10-23 的 “历史 样本 训练 ”一 
列 中 给 出 了 解决 这 个 问题 的 各 种 方法 。“ 自 适应 训练 ”一 列 则 给 出 了 基于 这 些 方法 的 自 适 应 
训练 的 效果 。 自 适应 训练 将 历史 样本 和 测试 样本 视 为 一 个 普通 序列 ， 并 顺序 对 每 个 文档 进行 
分 类 ， 然 后 再 利用 每 个 文档 进行 训练 。 也 就 是 说 ， 该 方法 与 10.1. 5 节 中 介绍 的 垃圾 信息 过 
滤器 是 一 样 的 。 为 了 进行 比较 ， 综 合 指标 只 考虑 测试 样本 的 分 类 结果 (Hl 1993 年 及 其 以 后 
的 《金融 时 报 》 (Financial Times)). 

表 10-23 的 第 一 行列 出 了 采用 BM25 Æ 10. 1. 2 节 中 介绍 ) 得 到 的 结果 。 其 中 ， 采 用 历 
史 样 本 进行 训练 的 结果 就 是 表 10-6 最 后 一 行 的 结果 . “NB” 这 一 行 的 结果 是 采用 朴素 贝 叶 
斯 分 类 器 得 到 的 ， 该 分 类 器 的 参数 设置 如 下 : 

。 二 元 特征 采用 字 节 4-gram。 

。 平滑 参数 采用 y=e 二 1。 

。 从 每 个 文档 中 提取 出 30 个 得 分 最 大 的 特征 与 30 个 得 分 最 小 的 特征 。 

“LR” HETE) 这 一 行 的 结果 是 采用 在 线 梯度 下 降 logistic 回归 法 得 到 的 (10. 3, 3 
节 详 细 描 述 了 该 方法 ) ， 参 数 设 置 如 下 : 

。 二 元 特征 采用 字符 4-gram。 


。 每 个 特征 向 量 x[ 外 映射 为 规范 化 长 度 的 形式 Xt = 


。 比例 参数 为 6 一 0. 004, 

。 采用 自 适 应 训练 。 对 于 每 个 新 的 训练 样本 ， 只 沿 梯 度 方向 前 进一步 ， 然后， 随机 选 
择 一 个 属于 另外 一 个 类 别 的 历史 训练 样本 ， 并 把 这 个 样本 作为 训练 样本 。 最 终 的 结 
果 是 ， 对 相关 样本 和 不 相关 样本 进行 训练 的 次 数 是 一 样 的 。 

“DMC” 这 行 是 对 文本 表示 的 文档 采用 了 DMC 压缩 法 的 结果 。 其 余 均 采用 批 训 练 的 方 


git] 


VTT" 
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法 ， 因 此 只 给 出 了 历史 训练 样本 上 的 结果 。LR (〈 批 过 滤 ) 是 logistic 回归 : 

。 使 用 LibLinear 软件 包 ( 版 本 为 1. 33) ， 使 用 标记 “-s 0” (L2 正则 化 logistic 回归 )， 
并 采用 默认 参数 。 

。 采用 二 元 4-gram 特征 。 

对 于 SVM: 

。 使 用 SVM*”r (版 本 为 6.02)， PERRE RIER, RUBRO. 

。 采用 二 元 4-gram 特征 。 

WF DT: 

。 使 用 FESTS (Fast Ensembles of Sparse Trees. PBRIMNREAI) 软件 包 。 标 记 
n=2 的 结果 是 使 用 标记 “-d 1” 《决策 树桩 ， 深 度 为 1) 得 到 的 ;标记 n=8 的 结果 
是 使 用 标记 “-d 3” 得 到 的 ; 标记 n=—256 的 结果 是 使 用 标记 “-d 8” 得 到 的 。 


表 10-23 TREC 主题 383 ( 见 图 10-2) 的 分 类 结果 





























Ji ; 
方法 历史 样本 训练 自 适应 训练 
P@10 AP : P@10 | AP 
BM25 1.0 0.56 | 0.8 0.30 
NB 0.0 0.00 0.4 0.06 
LR (梯度 下 降 ) 0.7 0.39 1.0 0.55 
DMC 0.0 0.01 0.1 0.06 
A 
LR ( 批 ) 0.8 0.48 | 
SVM ( 批 ) 0.8 0.49 
DT (n=2) 0.1 0.03 
DT (n=8) 0.9 0.53 
DT (n=256) 0.8 0.53 


在 历史 样本 上 BM25 的 分 类 效果 比 其 他 方法 好 ， 这 看 起 来 也 许 不 明显 ， 因 为 BM25 本 来 
就 是 为 这 个 目的 专门 训练 的 。 但 是 ， 它 的 性 能 要 比 自 适 应 训练 的 差 。 出 现 这 种 情况 ， 是 因为 
我 们 把 前 20 个 得 分 最 高 的 特征 作为 反馈 项 ， 而 且 这 个 特征 集会 随 着 训练 样本 的 增多 而 改变 。 
相反 ， 带 自 适应 训练 的 其 他 的 自 适应 方法 的 分 类 效果 有 所 提高。 

朴素 贝 叶 斯 、DMC 和 决策 树桩 的 分 类 效果 都 很 差 。 然 而 ， 其 他 的 学 习 方法 效果 都 很 
好 。 尽 管 单 凭 这 个 例子 就 做 出 哪个 算法 最 好 的 结论 是 不 恰当 的 ， 但 这 些 方法 的 确 值 得 认 
真 考量 。 

表 10-24 列 出 了 对 语言 分 类 采用 了 本 质 上 一 样 的 方法 后 得 到 的 结果 。 所 采用 的 方法 都 在 
10. 1. 4 节 中 介绍 了 。 分 别 根据 60 种 语言 对 文档 排名 ， 并 且 使 用 得 分 结果 对 每 个 文档 的 类 别 
进行 排名 。 为 了 对 文档 进行 排名 ， 我 们 列 出 60 个 排名 的 MAP 值 ， 同 时 为 了 分 类 ， 还 列 出 
了 4012 个 测试 文档 上 的 误 检 率 与 MRR。 在 文档 排名 方面 ，SVM 表现 最 好 ， 但 这 个 优势 
没有 在 分 类 排名 上 体现 。 总 的 来 说 ， 对 于 提高 分 类 效果 的 方法 ， 可 能 的 选择 也 就 是 DMC、 
LR, SVM 与 BM25 了 。NB 与 DT (对 于 任意 n) 在 文档 排名 与 分 类 上 得 到 的 结果 都 
很 差 。 
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表 10-24 语言 分 类 的 分 类 结果 






























方法 历史 样本 训练 自 适应 训练 
l .， 微 平均 误 检索 (%) MRR 
BM25 20.6 0.86 
NB 27.0 0.80 
LR (梯度 下 降 ) 0.76 22.9 0.84 
LR ( 批 ) 0.82 20.0 0.86 
SVM ( 批 ) 0.83 20.0 0.80 
DMC 20.0 0.86 
DT (n=2) 64.1 0.44 
DT (n=8) 43.7 0.63 
DT (n=256) 34.8 0.70 





10.8.2 在线 自 适应 垃圾 信息 过 滤 

表 10-25 列 出 了 在 线 垃 圾 信息 过 滤 中 各 种 自 适 应 方法 的 结果 ， 这 些 方法 在 10.1.5 节 中 
进行 了 介绍 。 图 10-18 将 这 些 结果 以 一 条 ROC 曲线 表示 出 来 。BM25、NB、LR 和 DMC BR 
了 以 下 的 区 别 都 与 前 面 介绍 的 一 样 : 

。 只 使 用 每 条 信息 的 前 2500 字 节 ， 因 为 根据 在 TREC 上 的 实际 经 验 ， 这 样 做 效果 
较 好 。 
对 于 BM25， 不 像 面 向 主题 过 滤 中 将 反馈 项 的 数量 限制 在 20 个 ， 这 里 对 反馈 项 的 数 
量 没有 限制 。 同 时 ,分 别 计算 当 垃 圾 信息 与 有 用 信息 视 为 是 相关 时 的 得 分 ， 然 后 用 
二 者 差 值 作为 总 得 分 。 


表 10-25 在线 垃圾 信息 过 滤 的 分 类 结果 












分 类 错误 率 (%) 
宏 平均 误 检 率 | Logistic HARM 


CPU 运行 时 间 








LR (梯度 下 降 ) 
ROSVM 
DMC 


ROSVM 是 指 松弛 在 线 SVM (Sculley 和 Wachman, 2007), xÆ TREC 2007 垃圾 邮 
件 专 题 中 性 能 最 好 的 两 个 过 滤器 之 一 (Cormack, 2007). ROSVM 是 专门 设计 用 于 自 适 应 
过 滤 的 高 效 过 滤器 ， 改 变 了 经 典 SVM 的 方法 原本 不 适合 的 应 用 。 但 是 ，Sculley 为 TREC 
会 议 实现 的 ROSVM 工具 包 比 梯度 下 降 LR 25 000 倍 。 可 以 从 网 上 下 载 ROSVM 的 一 个 
开源 的 版 本 .9 

通过 比较 所 有 的 指标 ， 我 们 发 现 DMC. LR 与 ROSVM 的 过 滤 效 果 是 一 样 的 。 从 ROC 
曲线 可 以 看 出 ，NB HE BM25 的 效果 要 好 ， 但 在 局 部 效果 上 这 两 种 方法 都 次 于 其 他 方法 。 
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图 10-18 在线 垃圾 信息 过 滤器 的 ROC 曲线 


10.9 ”延伸 阅读 


信息 检索 与 统计 学 习 方 法 涉及 多 个 不 同 的 研究 领域 。Mitchell (1997) 对 机 器 学 习 给 出 

了 一 个 较 好 的 介绍 ， 但 内 容 可 能 有 点 旧 。 如 果 想 要 得 到 这 些 方面 的 一 些 综合 性 理论 介绍 ， 可 

以 参见 Hastie 等 人 (2009) 的 著作 。 支 持 向 量 机 是 Joachims (2002) 的 主要 研究 方向 。Lo- 

gistic 回归 是 用 于 对 一 般 数据 进行 分 析 的 好 方法 〈Hosmer 和 Lemeshow，2000) ， 并 发 现 该 

方法 对 文本 分 类 能 得 到 较 好 的 结果 (Komarek 和 Moore，2003) ， 但 相 比 于 其 他 机 器 学 习 方 
法 ， 采 用 该 方法 的 人 不 多 。 

在 信息 检索 领域 主要 研究 检索 方面 ， 分 类 与 过 滤 就 显得 没 那么 重要 了 。Belkin 和 Croft 
(1992) 讨论 了 检索 与 过 滤 之 间 的 关系 。 在 机 器 学 习 领 域 中 ， 文 本 分 类 通常 都 被 视 为 是 监督 
学 习 分 类 的 一 个 应 用 ， 因 为 特征 恰好 就 表示 了 文档 。Sebastiani (2002) 研究 了 针对 文本 分 
类 的 学 习 方 法 ， 其 内 容 涵盖 了 所 有 方面 ， 而 我 们 前 面 只 提 到 了 passing。 这 些 降 维 方法 包括 : 
通过 词 项 选择 ， 利 用 对 文献 集 使 用 Fi 得 到 的 比较 结果 以 及 从 Reuters news 中 提取 出 来 的 
RCV1 基准 集 (Lewis 等 人 ，2004) 。 

van Rijsbergen (1979) 引入 了 Fe， 将 其 作为 基于 集合 检索 的 一 种 指标 。 这 个 指标 是 根 
据 检 索 结 果 的 数学 性 质 对 结果 进行 评价 ， 而 不 是 用 户 的 满意 程度 。Lewis (1991) 引入 了 微 
平均 的 概念 。 引 入 这 个 概念 是 因为 他 发 现 ， 如 果 每 个 文档 可 能 属于 多 个 类 别 ， 文 档 d 属于 
类 别 g， 那 要 让 硬 分 类 器 从 集合 DXQ 中 检索 出 所 有 对 《gd ，g)， 可 能 会 出 现 问题 。 基 于 集 
合 的 微 平均 指标 ， 如 查 准 率 、 查 全 率 与 将 检索 集 Rel 和 DX Q 与 相关 集 RetSDxQ 进行 比 
较 的 Fs. 

Swets (1963, 1969) 提出 了 一 个 用 于 信息 检索 评价 的 信号 检测 理论 。 然 而 ， 这 些 方 法 
只 适用 于 部 分 排名 检索 方法 。 真 阳 率 和 假 阳 率 对 应 与 信息 检索 指标 中 的 查 全 率 和 漏 查 率 。 所 
以 查 全 率 - 漏 查 率 曲线 与 ROC 曲线 是 一 样 的 。 近 年 来 ， 机 器 学 习 已 经 把 ROC 曲线 分 析 作 为 
一 种 标准 (Fawcett，2006)， 并 在 TREC 垃圾 邮件 专题 已 采用 了 这 种 标准 (Cormack 和 Ly- 
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nam, 2005), LAM 是 跟 垃 圾 邮件 专题 一 起 介绍 的 ， 随 后 被 证 明 与 诊断 概率 比 是 一 样 的 
(Glas 等 人 ，2003; Cormack，2008)， 该 指标 一 般 用 于 流行 病 学 和 医学 中 。 垃 圾 邮件 专题 也 
介绍 了 一 种 累加 综合 指标 ， 该 指标 是 软 分 类 ， 相 当 于 微 平均 。 

TREC 1 # TREC 11 (1992~2002) 中 包含 了 各 种 路 由 和 过 滤 任 务 (Robertson 和 Cal- 
lan, 2005), TREC 14 Æ TREC 16 (2005~2007) 包括 了 垃圾 邮件 专题 。TREC 会 议 上 ， 
路 由 任务 就 是 批 过 滤 : 前 一 年 的 特定 任务 〈 包 括 文档 、 主 题 和 qrels (是 指 一 个 查询 主题 集 
合 及 其 相应 的 答案 一 一 译 者 注 )) 就 是 历史 样本 ， 要 求 系统 根据 相关 性 对 另外 一 个 新 的 文档 
集 进 行 排名 。 对 得 到 的 结果 采用 标准 排名 检索 指标 进行 评价 。TREC 会 议 上 的 过 滤 ， 要 求 系 
统 返回 一 个 无 序 的 结果 集 ， 并 对 这 个 无 序 结果 集 采 用 多 种 基于 集合 的 指标 进行 评价 ， 这 些 指 
标 包括 线性 实用 性 和 下 ;。 排 名 检索 自己 并 不 会 对 这 些 指 标 进行 优化 ， 同 时 还 需要 采用 一 种 
称 为 门限 (六 值 ) 设置 的 方法 。 批 过 滤 使 用 的 历史 样本 和 新 文档 跟 路 由 中 使 用 的 一 样 。 自 适 
应 过 滤 是 在 线 过 滤 ， 这 里 ， 只 有 那些 在 分 类 后 被 标记 为 相关 的 文档 才 用 作 训 练 样本 。 因 为 可 
作为 校对 的 训练 样本 很 少 (Callan, 1998; Robertson，2002)， 所 以 自 适应 过 滤 优 化 门限 设 
置 是 很 困难 的 。Sculley (2007) 在 在 线 垃圾 信息 过 滤 的 范畴 内 解决 了 类 似 的 问题 。 垃 圾 邮 
件 专 题 上 评价 了 使 用 本 章 介绍 的 方法 构建 的 过 滤器 。 这 些 任 务 的 延伸 任务 考察 不 完整 反馈 、 
延 时 反馈 、 内 部 用 户 反馈 以 及 主动 学 习 带 来 的 影响 。 Cormack (2008) 给 出 了 垃圾 邮件 专 
题 、 相 关 方 法 和 结果 的 研究 结果 。 


10.10 练习 


练习 10. 1 Fat TREC 垃圾 过 滤器 评价 工具 包 ， 并 在 样本 语料库 上 运行 几 个 示例 过 滤器 。 

练习 10.2 找 出 TREC45 里 来 自 《 金 融 时 报 》 的 文档 。 在 这 些 文档 中 找 出 更 新 了 的 qrels。S 用 垃圾 过 
滤器 评价 工具 包 构 造 一 个 适用 于 评价 的 测试 语料库 。 

练习 10.3 下 载 一 个 或 多 个 批 过 滤器 。 在 你 的 一 个 语料库 上 进行 特征 工程 ， 为 你 的 分 类 器 准备 训练 样 
本 和 测试 样本 的 输入 文件 。 评 价 得 到 的 结果 。 注 意 ，SVMlight、Liblinear、LibSVM 和 FEST 均 采 用 一 般 
的 文件 格式 。 像 Weka 和 FR 这 些 系统 ， 它 们 都 实现 了 很 多 方法 。 

练习 10. 4 从 至 少 两 个 不 同 版 本 的 维基 百科 上 随机 抓 取 一 些 网 页 ， 以 构成 一 个 语料库 ， 利 用 这 个 语 料 
库 去 评价 各 种 分 类 方法 。 

练习 10.5 ”使 用 搜索 引擎 为 文本 分 类 和 过 滤 找 出 一 个 或 多 个 经 典 语料库 。 例 如 ， 近 年 来 用 于 路 由 、 过 
滤 和 垃圾 信息 任务 的 路 透 社 新 闻 、20 Newsgroups, Spambase, Ling Spam 和 TREC 文档 集 。 找 出 使 用 这 些 
语料库 学 习 得 到 的 结果 。 由 这 些 结果 ， 你 能 知道 哪个 方法 的 效果 最 好 吗 ? 你 能 重复 实验 ， 也 得 到 相同 的 结 
果 吗 ? 当 你 在 你 的 语料库 上 测试 这 些 方法 的 性 能 时 ， 该 怎样 比较 同一 个 方法 得 到 的 结果 ? . 

练习 10.6 实现 一 个 过 滤器 并 对 其 进行 评价 。 你 实现 的 过 滤器 不 需要 太 复 杂 : 如 果 使 用 的 是 二 元 特 
征 ， 采用 朴素 员 叶 斯 、logistic 回归 或 感知 器 这 些 方法 会 非常 简单 。 实 际 上 ， 任 何 数 据 压 缩 方法 都 可 能 作为 
一 个 过 滤器 使 用 ， 把 输出 长 度 作为 对 交叉 灶 的 估计 。DMC 以 及 其 他 的 序列 方法 的 实现 可 以 从 Web 上 下 载 。 
建立 模型 的 代码 可 以 从 这 些 实现 中 找 出 来 ， 就 可 以 省 略 掉 编 码 的 工作 。Sculley 的 在 线 SVM 可 以 从 Web 上 
下 载 。 

练习 10. 7 ”在 主要 的 高 速 公路 上 ，70 多 的 车 会 超速 。 而 在 这 些 高 速 公路 上 80 多 的 两 车 相 擅 交 通 事 故 
中 ， 至 少 有 一 台 车 是 超速 的 。 当 超速 驾驶 时 ， 发 生 事故 的 比值 比 是 多 少 ? 

练习 10.8 50 多 的 两 车 相 撞 事 故 中 ， 有 一 辆 车 能 停 下 来 。 如 果 要 计算 因 超速 驾驶 导致 事故 发 生 与 在 限 
速 范 围 内 驾驶 但 发 生 了 事故 的 比值 比 ， 还 需要 什么 额外 的 信息 呢 ? 
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练习 10. 9 假设 你 有 经 过 某 一 点 的 每 一 辆 车 的 速度 和 车 牌 的 完整 日 志 ， 还 有 在 经 过 这 点 后 一 小 时 内 发 
生 事 故 的 车 牌 信息 。 如 何 估计 某 辆 车 在 经 过 这 点 后 一 小 时 内 发 生 事故 的 概率 ? 
练习 10. 10 ”高 速 公路 巡逻 队 确 定 一 辆 车 牌 由 “Q@” 打 头 的 红色 小 车 超速 了 ， 但 没 能 抓 住 它 。 在 法 庭 


上 ， 控 方 专家 证 实 所 有 车 辆 中 ， 有 南 的 车 牌 是 以 “Q” 开 头 的 ， 有 亢 的 小 车 是 红色 的 ， 有 -250 的 小 车 速度 
足够 快 ， 能 逃脱 警方 的 追 搞 。 根 据 车 辆 注册 数据 库 ， 我 们 发 现 Mr.X 拥有 一 辆 红色 的 法 拉 利 。Mr.X 因为 和 


避 警 方 而 被 起 诉 ， 并 且 控 方 指出 M.X 无 罪 的 概率 是 百 万 分 之 一 ， 因 为 六 " 击 "1200 一 了 008505。 现 在 你 被 
雇用 为 辩 方 专家 证 人 。 你 觉得 你 有 可 能 赚 到 你 的 证 人 费 吗 ? 
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在 上 一 章 ， 我 们 介绍 了 多 种 关于 检索 、 分 类 和 过 滤 的 主要 方法 。 这 些 方法 通常 带 有 参 
数 一 一 如 BM25 的 kis Vues Viodys Difi buy 一 一 这 些 参数 都 有 它们 各 自 的 作用 。 如 果 我 
们 考虑 这 些 主要 方法 所 有 可 能 设置 的 参数 集 ， 同 时 考虑 其 他 可 能 的 设计 选择 ， 如 分 词 和 特征 
选择 ， 我 们 将 进入 一 个 接近 于 无 穷 大 的 方法 空间 中 ， 不 知道 该 选择 哪 种 方法 。 

巨大 的 方法 空间 导致 出 现 一 个 明显 的 问题 ， 哪 些 选 择 组 合 起 来 工作 效果 最 好 ? 当然 ， 如 
果 我 们 已 经 知道 了 这 个 问题 的 答案 ， 那 我 们 肯定 会 选择 这 些 方 法 并 将 它们 组 合 起 来 ， 以 得 到 
最 好 的 方法 ， 并 忽略 其 他 的 方法 。 你 可 能 会 很 惊讶 地 发 现 ， 通 常 可 以 把 多 种 结果 组 合 起 来 以 
提高 单个 最 好 方法 的 结果 ， 而 不 需要 确定 哪个 方法 是 最 好 的 。 

我 们 即将 要 介绍 的 具体 方法 如 下 : 

。 融合 〈fusion) RAM 〈aggregation) ， 该 方法 把 多 个 信息 检索 方法 的 返回 结果 组 合 
成 一 个 (参见 11.1 节 )。 
又 加 〈stacking) ， 该 方法 通过 学 习 ， 得 到 多 个 分 类 器 的 最 佳 组 合 方式 ， 构 成 一 个 元 
分 类 器 。11. 2 节 将 介绍 用 于 自 适 应 过 滤 的 和 加 ， 而 在 11. 3 节 将 介绍 适用 于 非 自 适应 
过 滤 和 分 类 的 春 加 。 
bagging 或 bootstrap 合成 法 (bootstrap aggregation)， 该 方法 随机 抽取 训练 样本 ， 
得 到 一 个 分 类 器 集合 ， 最 后 取 所 有 结果 的 平均 值 (参见 11. 4 节 )。 
boosting， 通 过 逐步 增加 训练 样本 的 权重 ， 以 突出 那些 被 错误 分 类 的 样本 ， 因 此 得 到 
一 个 分 类 器 集合 ， 最 后 取 所 有 结果 的 加 权 平 均 (参见 11.5 节 )。 
多 类 排名 和 分 类 (multicategory ranking and categorization) ， 该 方法 把 多 个 二 元 分 
类 器 的 结果 组 合 起 来 〈 参 见 11. 6 节 )。 
学 习 排 名 (learning to rank) ， 该 方法 的 评分 函数 是 从 各 个 不 同 的 样本 排名 学 习 而 来 
的 (参见 11.7 节 )。 

在 介绍 各 个 具体 的 例子 前 ， 我 们 先 给 出 一 些 常识 。 这 里 介绍 的 所 有 方法 ， 都 是 把 各 个 方 
法 的 已 知 证 据 合 成 起 来 ， 以 得 到 更 强 的 证 据 来 符合 用 户 的 信息 需求 。 尽 管 某 项 证 据 比 其 他 的 
证 据 要 更 严格 ， 通 过 合理 地 把 这 些 证 据 组 合 起 来 ， 把 它们 看 做 一 个 整体 ， 一 般 来 说 要 比 原 来 
任何 一 项 证 据 都 严格 。 这 种 现象 并 不 是 信息 检索 中 独 有 的 ， 一 般 我 们 称 这 种 现象 为 大 众 智慧 
(wisdom of crowds) (Surowiecki, 2004), 

我 们 考虑 的 证 据 采 用 以 下 3 种 通用 形式 中 的 一 种 ， 

1) 类 别 (categorical) 。 它 是 一 个 离散 的 结果 ， 表 明 一 个 文档 或 一 组 文档 集 相 关于 或 属 

于 某 个 特定 类 别 。 判 断 一 个 类 别 结果 的 问题 一 般 称 为 分 类 (classification)。 

2) 序数 〈ordinal) 。 一 个 排名 或 得 分 ， 根 据 文档 相关 于 或 属于 某 个 类 别 的 证 据 权 重 对 x 
档 排 序 后 得 到 。 决 定 一 个 序数 的 问题 一 般 称 为 排名 Cranking). 

3) 数量 〈quantitative) 。 一 个 校准 得 分 ， 通 常 是 一 个 概率 ， 表 明 一 个 文档 相关 于 或 属于 
某 个 类 别 的 证 据 权 重 。 估 计 这 个 校准 得 分 的 问题 一 般 称 为 回归 (regression). 

通过 使 用 排名 ， 回 归 可 以 化 简 为 排名 问题 ;通过 使 用 部 分 排名 或 半 值 ， 排 名 问题 可 以 化 
简 为 分 类 问题 。 但 每 一 步 都 丢失 了 信息 。 有 时 方法 本 身 就 包含 了 简化 ， 因 此 丢失 信息 无 法 避 
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免 。 信 息 丢 失 量 越 少 ， 所 有 证 据 的 权重 组 合 起 来 的 效果 就 越 好 。 

为 了 解释 组 合 证 据 的 各 种 方法 ， 我 们 考虑 前 几 章 提出 的 问题 : 排名 检索 、 面 向 主题 的 过 
滤 、 语 言 分 类 和 在 线 垃圾 信息 过 滤 。 对 于 每 个 问题 ， 我 们 都 使 用 前 面 已 经 为 各 种 目的 评价 过 
的 各 种 单个 方法 的 结果 作为 输入 ， 将 集成 后 的 结果 和 和 单个 最 好 方法 的 结果 进行 比较 。 另 外 ， 
我 们 还 将 使 用 LETOR 3 数据 集 S 说 明 学 习 排 名 这 一 方法 ， 这 是 一 个 由 若干 个 TREC 语料库 
组 成 的 基准 测试 集 。 


11.1 搜索 结果 融合 


最 简单 的 证 据 组 合 方法 是 搜索 结果 融合 (search-result fusion) ， 即 把 多 个 搜索 引擎 返回 
的 文档 列表 组 合成 一 个 。 除 了 文档 列表 ， 没 有 任何 其 他 的 信息 ， 在 这 里 ， 可 能 会 使 用 列表 里 
的 文档 排名 或 得 分 。 我 们 将 考察 该 方法 里 的 3 个 变量 ，1) 固定 临界 值 检索 ， 即 从 每 个 列表 
中 抽出 国定 数量 的 文档 ， 而 不 考虑 排名 ;2)》 排名 合成 ， 即 只 考虑 每 个 列表 内 每 个 文档 的 排 
名 ; 3) 得 分 合成 ， 即 只 考虑 每 个 列表 内 每 个 文档 的 排名 和 得 分 。 

为 了 说 明 搜索 结果 融合 ， 我 们 引入 以 下 概念 。 假 设 n 个 检索 系统 响应 查询 9 从 文档 集 忆 
中 返回 文档 列表 Res! 、Ress、… Res»。 我 们 希望 把 这 n 个 列表 的 证 据 合 成 起 来 ， 得 到 一 个 
更 好 的 排名 列表 Res 。 为 每 个 Res: 定义 一 个 评分 函数 7;(d)， 表 示 文 档 d E Resi 中 的 位 
置 ， 如 果 d AEF Resi, 则 返回 一 个 很 大 的 值 Cy 


nd- i (Resilk] = d) 
c (d ¢ Resi) 


只 要 满足 c> | Res: |, ¢ 可 取 任意 值 。e HAMME c=, c=|D|, c= la c= 


| Resi | 十 1。 对 于 本 书 的 例子 , 我 们 使 用 c=, 

对 于 得 分 合成 ， 我 们 假设 每 个 系统 返回 一 个 非 递增 的 得 分 列表 Score;， 其 中 Score:Lk ] 
是 与 Resi:[k] 有 关 的 相关 性 得 分 。 对 每 个 Score; 定义 一 个 评分 函数 si(d)， 表 示 文 档 d 在 
Rel; 中 的 得 分 ， 如 果 文 档 a PE Rel: 中 ， 则 返回 其 中 最 小 的 一 个 分 数值 

si(d -| Score; |k] (Res,[k] = d) (11-2) 
Score;||Score;|| (d ¢ Res;) 
我 们 一 般 会 假设 已 经 对 Score; 进行 了 归 一 化 ， 以 便 
Score;||Score;|| = min{s:(d)} =0, Score, [1] = max{si(d)} =1 (11-3) 

我 们 应 用 了 三 种 方法 把 前 几 章 提 到 的 ?一 29 种 不 同 的 检索 方法 的 结果 进行 了 结果 融合 ， 
如 表 11-1 所 示 。 对 于 每 一 个 方法 ， 表 里 都 给 出 了 4 个 TREC 文档 集 上 的 P@10 和 MAP 结 
果 ， 最 好 的 结果 用 黑体 字 显 示 。 


© research. microsoft. com/en-us/um/beijing/projects/letor 


260 .第 三 部 分 检索 和 排名 



















































































表 11-1 表 中 列 出 了 29 个 用 于 本 章 中 介绍 的 融合 和 学 习 排 名 的 例子 的 独立 运行 
结果 。 黑 体 的 数字 表示 该 结果 是 对 应 列 中 最 好 的 
TREC45 GOv2 
方法 2004 2005 

MAP P@10 | MAP P@10| MAP 
bm25 0.205 0.471 | 0.242 0.534 | 0.277 
bm25 0.247 0.500; 0.266 0.600 | 0.334 
bm25 0.205 0.467 | 0.243 0.538 | 0.276 
bm25 0.247 0.500] 0.266 0.592 | 0.333 
bm25_b=0 0.207 6.418 | 0.171 0.538 | 0.207 
bm25_notf_b=0 0.147 0.069 | 0.050 0.106 | 0.083 
dfr-gb2 0.216 0.465 | 0.248 0.550 | 0.269 
dfr-gb2 0.253 0.471 | 0.252 0.584 | 0.319 
dfr-gb2 0.216 用 .465 | 0.248 0.550 | 0.269 
dfr-gb2 0.253 0.471 | 0.252 0.584 | 0.319 
lm-dirichlet-1000 0.226 0.484 | 0.244 0.580 | 0.293 
lm-dirichlet-1600 0.262 0.492 | 0.270 0.600 | 0.343 
1m-dirichlet-1000 0.226 0.494 | 0.247 0.568 | 0.291 
lm-dirichlet-1000 Yes Yes 0.262 0.488 | 0.272 0.602 | 0.341 
lm-jelinek-0.5 No No 0.208 0.416 | 0.211 0.494 | 0.257 
lm-jelinek-0.5 No Yes 0.248 0.437 | 0.225 0.522 | 0.302 
lm-jelinek-0.5 Yes No 0.209 0.414 | 0.212 0.482 | 0.253 
lm-jelinek-0.5 Yes Yes 0.249 0.445 | 0.225 0.508 | 0.298 
lm-unsmoothed No No 0.141 0.402 | 0.171 0.492 | 0.231 
ln-unsmoothed No Yes 0.180 0.433 | 0.196 0.538 | 0.285 
lm-unsmoothed Yes No 0.141 0.400 | 0.172 0.484 | 0.230 
lm-unsmoothed Yes |. Yes 0.180 0.439 | 0.196 0.518 | 0.283 
prox No No 0.146 0.424 | 0.173 | 0.560 | 0.230 
prox No Yes 0.184 0.453 | 0.207 0.576 | 0.283 
prox Yes No 0.146 0.422 | 0.173 0.546 | 0.232 
prox Yes Yes 0.184 0.447 | 0.204 0.556 | 0.282 
vsm-lintf-logidf No No 0.120 | 0.298 | 0.092 0.282 | 0.097 
vsm-logtf£logidf No No 0.135 0.120 | 0.060 0.194 | 0.092 
vsmn-logtf-noidf-raw No No 0.154 0.400 | 0.144 0.466 | 0.151 











11.1.1 国定 临界 值 合 成 


考虑 把 表 11-1 的 结果 组 合 起 来 以 优化 P@10。 现 在 ， 我 们 考虑 对 每 一 个 结果 进行 分 类 ， 
每 个 主题 由 10 个 无 特定 序 的 文档 组 成 。 对 于 29 个 样 例 方 法 ，29 个 结果 集合 的 并 集中 ， 每 
个 主题 将 包括 10 一 290 个 文档 ， 从 中 我 们 希望 确认 10 个 最 相关 的 文档 ， 也 就 是 最 大 
化 P@10。 

假设 最 直接 的 方法 就 是 用 “最 好 ”的 检索 系统 返回 的 10 个 文档 作为 最 相关 的 文档 。 但 
是 ， 娜 个 检索 系统 才 是 最 好 的 呢 ? 也许 ， 基 于 前 面 章 节 的 评价 结果 ， 我 们 可 以 猜想 BM25 或 
LMD 是 最 好 的 。 但 是 ， 并 没有 一 个 方法 或 一 个 参数 集 对 这 4 个 语料库 同时 得 到 最 好 的 结果 。 
读者 可 像 查 询 oracle 一 样 查询 表 ， 从 而 得 到 比较 后 的 理想 结果 : 单个 最 好 的 结果 。 请 注意 
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“单个 最 好 的 结果 ”是 选择 一 个 结果 能 达到 的 最 佳 上 界 ， 在 现实 中 是 不 太 可 能 实现 的 上 界 。 

一 个 简单 而 又 实用 的 方法 就 是 采用 “选举 ”的 策略 ， 从 各 种 方法 得 到 的 “候选 ”文档 中 
选 出 10 个 文档 。 选 举 策略 大 同 小 异 ， 但 现在 我 们 简单 地 选 出 在 29 个 结果 集中 出 现 得 最 频繁 
的 10 个， 从 而 打破 每 个 候选 文档 都 一 样 的 全 局。 实际 上 我 们 把 若干 个 分 类 结果 合并 为 一 个 
排名 结果 ， 然 后 应 用 一 个 临界 值 (10 个 文档 》 来 得 到 一 个 新 的 分 类 结果 。“ 选 举 ” 策 略 的 结 
果 如 表 11-2 所 示 。 对 于 每 个 语料库 我 们 都 使 用 了 简单 的 投票 方法 ， 但 都 没有 等 于 或 超过 理 
想 的 最 好 结果 。 


表 11-2 本 书 中 讨论 的 检索 方法 在 TREC 文档 集 上 的 P@10 分 类 融合 结果 











11.1.2 ”排名 和 得 分 合成 


现在 考虑 对 上 述 4 个 文档 集 上 得 到 的 MAP 进行 优化 的 问题 。 每 个 结果 Res; 都 是 一 个 
列表 ， 从 中 可 以 得 到 排名 7;。 将 这 些 排名 组 合 起 来 ， 得 到 一 个 合成 排名 >。 该 方法 称 为 排 
名 合成 (rank aggregation), MAA (fusion) 或 元 搜索 (metasearch). 

排名 倒数 融合 (reciprocal rank fusion, RRF) (Cormack 等 人 ，2009) 也 许 是 最 简单 有 
效 的 排名 合成 策略 了 。RRE 根据 一 个 朴素 的 得 分 公式 对 文档 排序 


RRF score (d)=) ， Fr (11-4) 


对 于 一 般 的 检索 结果 ， 使 用 k 二 60 得 到 的 效果 最 好 。 选 择 这 条 公式 的 思想 是 : 尽管 排名 越 
高 的 文档 越 重要 ,但 也 不 能 忽略 排名 靠 后 的 文档 的 重要 性 。 公 式 中 的 调和 级 数 具有 这 一 性 
质 。 通 过 强盗 方法 (rogue method), WR k 减少 了 高 排名 所 产生 的 影响 。 

考虑 更 多 的 方法 ( 却 不 一 定 是 更 有 效 的 方法 ) 基于 某 种 选举 理论 ， 在 该 理论 中 ， 选 举 者 
只 表达 他 的 意愿 (喜好)， 而 不 是 直接 选 出 某 些 类 别 。Condorcet 融合 〈Montague 和 
Aslam, 2002) 根据 成 对 关系 (di)<r(as) 来 对 文档 进行 排序 ， 以 合并 排名 ， 其 中 每 对 
(di, dz) 的 关系 由 输入 排名 中 的 多 数 投票 决定 。 

其 他 不 是 纯 排 名 合成 的 方法 会 使 用 到 得 分 〈 数 量 的 ， 尽 管 是 任意 核准 的 证 据 ) 而 不 是 排 
名 。 例 如 ，CombMNZ (Lee, 1997) 根据 得 分 公式 排序 文档 | 

CMNZscore (d) = |{i | d € Res;}| - -X si(d) (11-5) 


也 就 是 说 ，CMNZscore EHR REN TRS ENB, AeA 
得 分 用 于 排名 。 表 11-3 列 出 使 用 这 3 种 方法 融合 29 种 信息 检索 方法 的 结果 得 到 的 融合 结 
果 。 对 于 4 个 语料库 中 的 3 个 ， 采用 RRF 可 以 得 到 最 好 的 MAP 得 分 。 采 用 Condorcet 也 能 
提高 MAP 得 分 ， 但 当 使 用 的 间隔 太 大 时 ，Condorcet 则 不 能 起 到 提高 MAP 得 分 的 作用 了 。 
尽管 使 用 CombMNZ 得 到 的 MAP 得 分 接近 于 最 好 的 MAP 得 分 ， 但 却 不 能 大 大 地 优 于 它 。 
为 了 与 前 面 的 结果 进行 对 比 ， 我 们 还 给 出 P@10, P@10 是 使 用 排名 组 合 得 到 的 ， 其 中 临界 
值 取 10。 采 用 RRF 得 到 的 P@10 得 分 在 所 有 情况 下 都 比 采 用 投票 策略 得 到 的 P@10 得 分 要 
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高 ， 同 时 接近 于 最 好 的 P@10 得 分 。 
表 11-3 本 书 中 讨论 的 检索 方法 在 TREC 文档 集 上 的 基于 排名 的 融合 结果 


TREC45 GOV2 
方法 1998 




























P@10 MAP P@10 ] MAP 
Best (by MAP) 0.462 0.272 0.602 | 0.341 
Best (by P@10) 0.464 0.266 0.602 | 0.341 











RRF (k=60) 0.462 
Condorcet 
CombMNZ 














总 的 来 说 ， 排 名 和 得 分 集成 这 两 种 方法 都 是 很 有 价值 的 ， 因 为 采用 这 两 种 方法 通常 能 达 
到 或 高 于 最 好 排名 ， 而 这 个 过 程 不 需要 知道 各 个 独立 结果 间 的 相互 关系 。 因 此 ， 这 两 种 方法 
可 以 与 本 章 中 介绍 的 其 他 方法 结合 起 来 使 用 ， 如 bootstrap 集成 法 (参见 11.4 节 )。 


11.2 ”又 加 自 适 应 分 类 器 


现在 考虑 把 在 线 垃 圾 信息 过 滤器 的 分 类 或 数量 结果 (参见 表 10-25) 组 合 起 来 的 问题 。 
分 类 结果 只 是 简单 地 指明 了 每 个 信息 是 垃圾 信息 还 是 正常 信息 而 已 。 我 们 现在 简单 地 使 用 多 
数 表 决 法 将 这 些 结果 组 合 起 来 。 因 为 有 奇数 个 过 滤器 ， 所 以 我 们 不 必 担 心平 局 的 情况 。 实 际 
上 ， 通 过 与 一 个 阅 值 t 进行 比较 ， 投 票 得 到 的 排名 可 以 转化 为 一 个 分 类 结果 。 现 在 假设 5 个 
结果 中 的 t 个 需要 标记 为 垃圾 信息 。 多 数 表决 法 与 单个 最 优 过 滤器 (参见 表 11-4) 一 样 好 。 
在 实际 中 , 采用 t 一 4 或 1 一 5 可 能 会 得 到 更 符合 预期 目的 一 过 滤 掉 垃圾 信息 的 满意 结果 。 


表 11-4 ”通过 投票 法 将 在 线 垃圾 信息 过 滤器 的 结果 组 合 起 来 











- 分 类 错误 (%) 
方法 
假 阳 率 假 阴 率 Logistic 平均 

最 好 0.32 0.42 0.37 
BERR 0.42 0.34 0.37 
lof5 32.88 0.00 0.61 
2of5 1.54 0.02 0.54 
30f5 0.42 0.34 0.37 
4of5 0.19 0.61 0.34 
5of5 0.08 * 1.50 0.36 











排名 合成 并 不 适用 于 在 线 过 滤器 ， 因 为 该 方法 要 求 对 得 分 进行 排序 。 取 而 代 之 的 是 ， 我 
们 会 校准 文档 di 的 得 分 s;， 并 在 已 知 d; 是 垃圾 信息 时 ， 使 用 历史 样本 去 逼近 log-odds: 
I{dj<i € spam | s(dj) < s(di)}| 
l{dj<i ¢ spam | s(d;) > s(di)}| 
这 些 得 分 可 以 使 用 与 概率 分 类 器 的 特征 值 一 样 的 方法 求 平均 。 使 用 《〈 元 ) 学 习 方 法 把 结果 组 
合 起 来 的 方法 称 为 琶 加 (stacking). XF log-odds 平均 ， 元 学 习 法 相当 于 朴素 贝 叶 斯 〈 参 
见 10. 3.2 节 )。 也 可 使 用 其 他 自 适 应 的 元 学 习 法 替代 ， 如 梯度 下 降 logistic 回归 。 


logOdds|{d; € spam] æ% log (11-6) 
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表 11-5 列 出 了 在 运用 朴素 贝 叶 斯 和 logistic 回归 元 分 类 器 进行 log-odds 变换 后 的 结果 上 
进行 到 加 后 得 到 的 垃圾 信息 过 滤 结 果 。 无 论 是 使 用 朴素 贝 叶 斯 还 是 logistic 回归 ， 都 比 最 好 
的 单个 过 滤器 有 了 很 大 的 提高 。 

表 11-5 通过 logodds 平均 和 回归 将 在 线 垃圾 信息 过 滤器 的 结果 组 合 起 来 
分 类 错误 (%) 



































方法 
假 阳 率 假 阴 率 | Logistic 平均 1-AUC 
最 好 0.41 0.47 0.44 0.012 
多 数 表决 法 0.34 0.37 0.095 
NB & 30 0.34 0.36 0.008 
0.27 0.33 








现在 考虑 表 10-23 中 列 出 的 面向 主题 过 滤 的 结果 。 由 于 自 适 应 训练 结果 已 经 给 出 了 ， 所 
以 可 以 直接 对 表 中 的 4 种 方法 采用 自 适应 看 加 法 。 实 际 上 ， 这 些 方 法 都 是 在 整个 数据 集 上 按 
序 进行 训练 的 ， 但 表 中 只 给 出 了 它们 在 测试 样本 上 得 到 的 结果 。 对 病 加 垃圾 信息 过 滤器 采用 
同样 地 方法 : 把 整个 数据 集 的 得 分 按 递增 方式 转换 成 log-odds， 并 采用 自 适应 logistic 回归 
对 这 些 得 分 求 平均 或 组 合 起 来 。 只 给 出 在 测试 样本 上 得 到 的 结果 。 由 表 11-6 可 知 ， 杰 加 的 
效果 与 垃圾 信息 过 滤 的 效果 是 一 样 的 ， 这 两 种 方法 都 比 最 好 的 结果 有 了 很 大 的 提高 ， 如 果 采 
用 logistic 回归 ， 效 果 就 更 显著 了 。 只 有 一 种 方法 得 到 的 组 合 结果 要 比 最 好 的 结果 差 很 多 。 
尽管 如 此 ， 从 这 些 结果 我 们 还 是 可 以 看 出 ， 只 要 合理 使 用 秋 加 ， 得 到 的 结果 都 比 最 好 的 结果 
要 好 。 

表 11-6 ”使 用 自 适应 训练 ， 在 TREC 主题 383 上 得 到 的 叠加 结果 。 表 中 的 结果 可 
与 表 10-23 中 “ 自 适应 训练 ”的 结果 进行 比较 


历史 样本 十 在 线 
方法 
























单个 最 好 的 方法 
NB Æj 
LR &inl 


11.3 ”又 加 批 过 滤器 


直接 对 批 训练 过 滤器 返回 的 结果 进行 到 加 是 有 问题 的 ， 因 为 很 难 将 这 些 过 滤器 返回 的 得 
分 调 校 成 log-odds 或 其 他 有 意义 的 数量 形式 。 即 使 使 用 如 logistic 回归 这 样 的 方法 可 以 直接 
估计 log-odds， 但 这 也 只 能 在 训练 集 T 上 做 。 由 于 过 度 拟 合 ， 不 能 直接 将 这 些 估计 推广 到 
测试 集 上 。 如 果 采 用 如 SVM 和 决策 树 这 些 方法 ， 情 况 将 更 糟糕 ， 采 用 这 些 方法 ， 一 般 不 能 
在 训练 样本 上 得 到 最 好 的 得 分 ， 这 些 得 分 不 能 用 于 测试 样本 中 。 

为 了 解决 这 个 问题 ， 基 于 训练 文档 di ET 的 得 分 ， 我 们 采用 公式 〈11-6) 去 调 校 文档 
d;€D 的 得 分 si : 

d; € (T N spam) | s d;) < s(d:)}| 
logOddsldi € spam] ~ oe a ST ae > stai))| 
表 117 列 出 了 使 用 表 10-23 中 9 种 方法 得 到 的 又 加 批 训练 结果 。 总 体 效果 与 前 面 的 例子 相 
似 ， 朴素 贝 叶 斯 全 加 能 大 大 地 提高 效果 ; ORAL GHD logistic 回归 提高 的 效果 更 明显 。 


(11-7) 
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表 11-7 AH, Æ TREC 主题 383 上 得 到 的 全 加 结果 。 表 中 的 结果 可 与 表 
10-23 中 的 “历史 训练 ”结果 进行 比较 







历史 训练 










方法 











单个 最 好 的 方法 
NB #20 
LR 要 加 


11.3.1 holdout 验证 


从 训练 结果 估计 log-odds 就 是 一 个 回归 的 例子 一 一 从 有 效 数据 中 对 一 个 数量 结果 进行 
估计 。 特 别 的 ， 我 们 将 各 种 方法 的 分 类 有 效 性 作为 一 个 评分 函数 s(Cd)， 从 而 估计 各 个 方法 
的 性 能 。 这 些 估 计 可 以 使 我 们 可 以 得 到 一 种 更 好 的 组 合 排名 方法 (或 分 类 器 )。 

然而 ， 前 一 节 中 使 用 的 从 s(d)(d E IT) 中 估计 log-odds 的 技术 会 受 泛 化 误差 的 影响 。 
通过 使 用 从 一 个 独立 的 验证 集 VCVCD 且 TNV= 候 中 得 到 的 s (a) 来 计算 log-odds (或 任 
何其 他 回归 量化 ) ， 可 以 避免 这 个 泛 化 误差 。 也 就 是 ， 在 T 上 训练 该 方法 ， 并 用 它 来 评分 
(或 分 类 ， 或 排名 ) V. 

构造 V 的 一 种 最 直接 的 方法 是 holdout 法 : 将 大 的 已 标记 样本 集合 工 HARA, MD 
中 采样 ， 使 得 工 二 T 十 Y。 假 设 工 是 刀 的 一 个 独立 同 分 布 样本 〈iid ), 是 工 的 一 个 随 
机 子 集 ， 因 此 TMV 均 认为 是 D Hiid 样本 。 因 此 log-odds 的 计算 使 用 一 个 与 D 独立 的 
样本 ， 不 会 受到 分 类 器 对 T 过 度 拟 合 的 影响 。 (然而 ， 回 归 可 能 会 对 V 过 度 拟 合 ， 但 这 是 
WER.) Y 一 般 称 为 验证 集 (validation set)， 在 当前 这 种 特殊 背景 下 ， 称 为 holdout 集 
Choldout set) 。 该 方法 称 为 holdout 验证 (holdout validation), 

holdout 验证 的 主要 局 限 是 缺少 标记 样本 。 世 的 大 小 一 般 受 限于 标记 开销 和 可 用 性 ， 因 
此 ， 集 合 T 的 大 小 与 集合 Y 的 大 小 会 直接 互相 影响 。 一 般 来 说 ，T 越 大 ， 得 到 的 基 方 法 越 
好 ， 而 V 越 大 ， 将 得 到 更 好 的 验证 。 某 一 方 的 提高 都 需要 以 另 一 方 的 降低 作为 代价 。 

第 二 个 局 限 是 正 例 样 本 在 工 和 Y 中 的 普遍 度 可 能 不 同 。 一 些 方法 ， 特 别 是 依赖 于 阔 值 
设置 的 分 类 方法 ， 对 普遍 度 相 当 敏 感 。 可 以 通过 使 用 分 层 抽 样 (stratified sampling) 技术 ， 
从 工 中 构造 出 T(V 也 是 一 样 )， 减 轻 因 普遍 度 不 同 而 带 来 的 影响 。 在 分 层 抽样 中 ， 对 工 中 
每 个 类 别 里 的 样本 进行 单独 抽样 ， 以 便 个 〈Y 也 是 一 样 ) 中 各 个 类 别 的 比例 与 世 大 致 相同 。 


11.3.2 ”交叉 验证 


交叉 验证 (cross-validation) 也 是 一 种 回归 方法 ， 该 方法 将 已 被 标记 的 样本 集 工 分 成 
KR (split) (Ti, Vi), (Tzs Vo), ee, CTh, Vado EBEDE T: 上 对 学 习 方 法 单独 
进行 训练 ， 并 把 得 到 的 结果 用 于 为 文档 dE V 进行 评分 。 在 组 合 结果 上 使 用 回归 方法 ， 把 
所 有 验证 集 看 成 一 个 大 的 验证 集 V =U V。 。 最 常见 的 交叉 验证 法 是 HELME (k-fold 
cross-validation) ， 该 方法 中 ， 各 个 验证 集 的 大 小 都 一 样 ， 且 它 们 之 间 没 有 交集 ; V iziVi NN 
Vj; 一 9。 另外 ， 每 个 训练 集中 的 样本 不 会 出 现在 验证 集中 : Ti=L\ V;。 当 很 大 时 ， 有 
Ti~Ll 和 V==L。 因 此 ,，V 是 对 同等 大 小 的 独立 的 holdout 集 的 一 个 合理 近似 。K= | L | 
这 一 极端 情况 称 为 leave-one-out iE. | 

如 果 使 用 分 层 抽 样 ，k 的 取 值 将 受 普遍 度 最 低 的 类 别 的 影响 。 在 基于 主题 过 滤 的 例子 
中 ,， 人 包含 22 个 相关 文档 ， 因 此 ， 我 们 使 用 -22 折 交 叉 验 证 ， 使 每 个 Vi 中 包含 一 个 相关 文 
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档 。 当 不 受 分 层 限 制 时 ，k 的 取 值 可 能 受 效 率 问题 制约 ， 因 为 训练 开销 与 & 是 成 正比 的 。5 
折 交 叉 验 证 (k= 二 5) 和 10 折 交 叉 验证 (k= 二 10〉 是 比较 常见 的 。 表 11-8 列 出 了 使 用 22 折 
交叉 验证 后 得 到 的 结果 ， 由 这 些 结果 可 见 ， 该 方法 大 大 提高 了 平均 融合 与 又 加 融合 的 结果 
(数据 采用 主题 383) 。 


表 11-8 使 用 22 折 交 叉 验证 ， 在 TREC 主题 383 上 得 到 的 释 加 结果 








历史 训练 





单个 最 好 的 方法 
NB Æ 
LR #iM 






交叉 验证 另外 一 个 重要 的 作用 就 是 选择 (selection) 或 调和 (tuning 学 习 方 法 。 在 这 
里 ， 交 叉 验 证 用 于 估计 某 些 总 体 有 效 性 评价 指标 ， 并 搜索 方法 空间 和 参数 集 来 优化 这 些 指 
标 。 正 如 本 章 开始 所 提 到 的 ， 并 且 我 们 已 经 通过 例子 证 明 ， 选择 单个 最 好 的 方法 或 参数 集 并 
不 能 获得 最 好 的 总 体 结果 。 


11.4 bagging 


如 果 在 某 个 特定 的 训练 集 T 上 对 学 习 方 法 进行 训练 ， 并 将 结果 用 于 D 中 的 文档 ， 那 得 ， 
到 的 分 类 、 排 名 或 回归 结果 主要 会 出 现 以 下 两 种 误差 .训练 误差 (training error) 和 泛 化 误 
差 (generalization error) 。 如 果 只 使 用 一 个 训练 集 TT， 那么 这 两 种 误差 都 会 下 降 ， 对 同一 个 
方法 ， 分 别 在 N DIRET, Ta e Tu 上 进行 训练 ， 其 中 T: 是 一 个 独立 于 DD 的 样本 ， 
BAY 个 的 大 小 相等 ， 对 于 得 到 的 训练 结果 ， 我 们 将 会 对 这 些 结果 求 平均 值 。 

原因 很 简单 。 设 ideal(qd) 是 由 一 个 理想 分 类 器 对 文档 d E D 进行 分 类 时 返回 的 得 分 。 
在 训练 集 T: 上 进行 训练 的 某 个 特定 方法 会 计算 ci(d) 之 ideal(Qd)。 更 具体 来 说 ，ci(d) 王 
ideal(d)+E;, HE, 是 一 个 随机 变量 ， 对 在 训练 集 上 Ti 进行 训练 时 出 现 的 误差 进行 建 
模 。 现 在 ， 假 设 以 这 些 结果 的 平均 值 作为 组 合 结果 


N 
c(d) = = - 2 (ideal(d) + Ei) = ideal(d) + E (11-8) 
其 中 
N 
E; 
E=}, W (11-9) 


如 果 E: 两 两 独立 ， 那 么 E BTA- RRAS LEIA, 的 方差 都 要 小 。 在 on, 都 相等 这 
RRIF, oe ZEH ob, 小 N i: 
oye x A, (11-10) 
WET, BSDMVAOHHRA, MAE; 是 独立 的 且 它们 的 方差 相同 ， 因 此 ， 使 用 该 方 
法 得 到 的 标准 误差 or 要 比 只 使 用 单个 训练 集 T; 的 训练 误差 小 VN 倍 。 
一 般 来 说 ， 把 标记 样本 集 L 分 成 多 个 独立 的 训练 集 再 进行 处 理 所 获 得 的 好 处 并 不 多 ， 
因为 在 一 个 大 的 集合 T= 二 L 上 进行 训练 ， 效 果 是 一 样 的 “如果 不比 原来 好 )。 我 们 会 使 用 男 
外 一 种 称 为 bootstrap 的 技术 ， 使 用 该 技术 可 以 模拟 出 N 个 大 小 与 工 相同 的 集合 Ti 
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To. e Ty 《参见 12. 3. 2 49). bootstrap 技术 使 用 工 代替 D， 独 立 且 随 机 地 从 工 p T: 
的 每 个 元 素 。 因 为 是 独立 的 选择 每 个 元 素 ， 因 此 在 T: 中 的 某 个 元 素 可 能 会 重复 出 现 ， 而 某 
些 元 素 可 能 完全 没有 出 现 过 。 对 于 Ti ， 只 要 抽样 大 小 (N>20) 合理 ， 就 可 以 使 用 泊 松 公 
式 很 好 地 近似 某 个 给 定 元 素 CEL 出 现 k 次 的 概率 : 


1 
Prll{d € Ti} = kl = (11-11) 


即 对 于 任何 给 定 的 Ts, KAES. 8% HARE BL, KAS ~36. 8% 的 文档 会 出 现 一 


ko KA ~IS. 4% 的 文档 出 现 两 次 ， 以 此 类 推 。 这 些 引导 样本 bootstrap sample) 有 足 


够 的 独立 性 ， 可 以 使 误差 方差 下 降 。 给 定 的 工 要 足够 大 ， 能 对 D 中 的 各 类 文档 提供 一 个 好 
的 表示 ， 同 时 给 定 的 学 习 方 法 要 把 重复 的 样本 看 做 是 独立 的 样本 ， 只 是 这 些 独立 的 样本 刚好 
具有 同样 地 性 质 而 已 H bootstrap 训练 集 近 似 于 内 容 提取 自 D 的 训练 集 ( 不 是 提取 自 L) 
(Efron #l Tibshirani, 1993), . 

bootstrap 合成 (bootstrap aggregation) 或 bagging 技术 平均 了 通过 把 引导 样本 看 做 训 
练 集 得 到 的 结果 。 尽 管 bagging 可 用 在 任何 学 习 方法 中 ， 但 该 方法 最 有 效 且 最 常用 于 不 稳定 
(unstable) 的 学 习 方法 中 ， 这 些 学 习 方 法 得 到 的 结果 都 高 度 依赖 于 某 个 特定 的 训练 桩 本 。 
表 11-9 列 出 了 对 TREC 主题 383 采用 决策 树 方法 的 bootstrap 合成 后 的 结果 。 决 策 树桩 
(7 一 2) 的 提高 效果 最 明显 。 像 叶子 数 为 n=8 A n=256 这 样 更 大 的 决策 树 ，NN 很 小 的 时 候 
得 到 的 效果 不 太 好 ， 但 当 N32 时 ， 得 到 的 结果 很 好 。 不 过 ， 当 N 之 128 时 ， 提高 的 效果 
已 经 不 大 了 ， 因 为 这 时 得 到 的 结果 已 经 接近 于 最 好 的 结果 了 。 


表 11-9 xt TREC 主题 383 上 决策 树 bootstrap 集成 法 (bagging) R. R 
中 的 数值 是 AP， 可 与 表 10-23 中 的 结果 进行 比较 














bootstrap 集成 法 采样 的 数量 








lele” 


| is | 3 | os 
0.38 | 0.22 | 0.56 | 0.37 | 0.52 | 0.50 
0.21 | 0.33 | 0.47 | 0.55 | 0.59 | 0.58 
0.13 | 0.44 | 0.45 | 0.47 | 0.55 | 0.54 


11.5 boosting 


boosting 与 bagging 类 似 ， 该 方法 扰动 了 训练 样本 ， 以 得 到 一 种 组 合 (ensemble) 7 
法 ， 把 这 些 结果 组 合 起 来 。 与 bagging 随机 组 织 训练 数据 以 最 小 化 泛 化 误差 不 同 ，boosting 
系统 地 组 织 训练 数据 以 最 小 化 训练 误差 。 尽管 这 两 种 方法 的 基本 假设 有 很 大 的 不 同 ， 但 是 它 
们 的 最 终结 果 都 是 得 到 一 个 更 好 的 分 类 器 。 

boosting 与 所 有 的 监督 式 学 习 方 法 类 似 ， 整 个 训练 集 了 是 从 中 随机 抽样 后 得 到 的 。 
但 我 们 不 会 直接 把 T 用 于 训练 ; 而 是 对 每 个 de T 赋予 一 个 权重 wa E 腿 ,使 1 二 awd 。 基 
学 习 方 法 假设 : 文档 的 普遍 度 os 与 a 在 中 的 普遍 度 一 样 ， 为 ps 二 wa, 这 与 原来 建议 的 


T 中 的 比例 不 同 〔 即 ma 十 示 T)。 对 于 像 决 策 树 这 样 的 基 学 习 方法 ， 在 构建 过 滤器 时 ， 通 


过 把 各 个 文档 d 的 贡献 值 wa 都 相 乘 ， 就 能 很 容易 好 满足 这 个 假设 了 。 
boosting 的 处 理 过 程 就 是 计算 个 权重 向 量 w, wP, e, wl, SAA T 和 
这 些 权重 向 量 ， 把 分 类 器 ce、c 四 、…、c 中 的 学 习 关联 起 来 。 初 始 时 ， 对 于 所 有 MCT A 


2048 | 4096 


0.52 | 0.53 
0.58 | 0.59 
0.55 | 0.55 





DT (n=2) 
DT (n=8) 
DT (n=256) 





0.52 
0.58 
0.54 
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w= | T 。 接 下 来 的 步骤 中 ， 那 些 被 分 类 器 c[ (4 ) 错 误 分 类 的 样本 的 权重 wy 会 增 


大 相对 于 ww 四)， 并 对 其 进行 归 一 化 ， 以 满足 1 二 Daw, BARNS ATT 个 分 
类 器 的 权重 和 组 成 





k 
c(d)=> aic (d) (11-12) 


i=l 
其 中 ， 权 重 a; 用 于 最 小 化 整体 的 误差 。 计 算 w 和 a 的 方法 不 同 ， 就 构成 了 boosting 方法 系列 。 
也 许 最 著名 的 就 是 AdaBoost， 用 于 决策 树 。 对 TREC 主题 383 采用 该 方法 ， 得 到 的 结果 如 表 
11-10 PAX. boosting 与 logistic 回归 以 及 其 他 优化 方法 有 很 大 的 相似 性 (Schapire, 2003), 


表 11-10 Xİ TREC 主题 383 上 决策 树 的 Boosting (AdaBoost) 结果 。 表 中 的 数值 
是 AP， 可 与 表 10-23 以 及 表 11-9 中 的 结果 进行 比较 






boosting 集成 法 的 采样 数量 


a | s | as |32 | 6 | sas | ase | s1 [1024 | 20% | s06 


0.31 | 0.38 | 0.52 | 0.48 | 0.50 | 0.49 | 0.53 | 0.54 | 0.59 | 0.60 | 0.61 
0.22 | 0.27 | 0.41 | 0.54 | 0.59 | 0.60 | 063 | 0.61 0.62 | 0.64 | 0.64 
0.51 | 0.54 | 0.54 | 0.53 | 0.49 | 0.55 | 0.57 | 0.56 | 0.56 | 0.57 | 0.57 


116 多 类 排名 和 分 类 


对 于 多 类 排名 和 分 类 问题 ， 我 们 需要 一 个 得 分 sCd ,9) 作 为 替代 概率 一 估计 一 个 文档 
dED BFR EQ 的 概率 (P PrrdE qj])。 对 于 语言 分 类 的 例子 (参见 10. 1. 4 节 )， 类 
别 就 是 60 种 语言 ， 因 此 gj 三 ly。 对 于 面向 主题 的 搜索 或 过 滤 ， 类 别 就 是 各 个 主题 ， 因 此 
q; 硅 t;。 我 们 首先 以 语言 分 类 的 例子 作为 引信， 然后 再 转 到 面向 主题 的 搜索 或 过 滤 问 题 中 。 
“作为 替代 概率 ”的 意思 是 : 

。 WR s(4&，9) 是 一 个 类 别 ， 那 么 它 比 概率 的 正确 性 要 大 。 

。 如 果 s(@，9) 是 一 个 序数 ， 那 么 它 暗含 的 排名 与 概率 是 正 相关 的 。 

。 如 果 s(d，g) 是 一 个 数量 ， 那 么 对 于 某 些 已 知 的 函数 f 

f(s(d,q))~ Prld € q] (11-13) 
用 得 分 替代 概率 并 不 是 唯一 一 种 多 类 排名 方法 。 该 方法 只 是 我 们 到 目前 为 止 介绍 的 相关 性 排 
名 和 融合 方法 中 关键 的 一 种 。 这 里 的 区 别 是 : 当 9 天 gx 时 , 假设 s(d, q) s(d, q) 
进行 比较 : 







8192 





0.59 
0.63 
0.57 











DT (n=256)| 0.60 





s(d,q;) < s(d, qk) & Prld € qj] < Prld € qx] (11-14) 
即 sa ,gq) 可 以 实现 在 文档 中 对 类 别 进行 排名 ， 而 不 仅仅 是 在 某 个 类 别 中 对 文档 排名 。 
在 本 节 ， 为 了 实现 多 类 排名 和 分 类 ， 我 们 将 会 介绍 几 种 不 同 的 方法 来 计算 和 合并 评分 函 
RAR (sH, DX Q 一 R}。 


11.6.1 文档 得 分 与 类 别 得 分 


在 语言 分 类 的 例子 中 参见 10. 1. 4 节 ) ， 我 们 为 每 种 语言 ! 计算 评分 函数 8s,(d;)， 该 函 
数 用 于 替代 PrL di;€ 1]。 为 了 排名 语言 ， 需 要 某 个 特定 的 文档 d AA sad) (CAFER Pr 
LE 1;]))。 到 目前 为 止 , 我 们 所 使 用 的 方法 均 简单 地 设 su (4;) 二 si(d;)。 在 这 种 选择 下 
的 假设 是 s(d;， i) =s, (ai)， 它 满足 我 们 前 面 对 $ 规定 的 标准 ， 即 对 所 有 d: 和 l; 的 概率 
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PrLaiE 1;]， 均 能 使 用 它 代替 ， 而 不 仅仅 是 某 种 语言 /1。 在 这 个 假设 下 ， 一 个 文档 d 最 可 能 
使 用 的 语言 是 
arg max {s(d,1;)} (11-15) 


7-H. d 可 能 使 用 的 语言 1; RACAR Ssd, DHAT. 
对 于 logistic 回归 ， 这 个 假设 有 一 个 合理 的 解释 ， 因 为 该 方法 直接 估计 概率 GEM log- 
odds 一 样 )。 对 于 其 他 线性 分 类 咽 或 广义 线性 分 类 器 ， 从 某 个 分 离 超 平面 得 到 的 标识 距离 通 
常 是 一 个 可 以 接受 的 得 分 (如 果 未 经 校正 )。 如 最 近邻 法 这 种 非 线 性 的 方法 ， 一 般 会 使 用 某 
些 内 部 得 分 ， 这 些 得 分 也 是 可 以 接受 的 ， 如 与 最 近邻 居 的 邻近 度 或 在 个 最 相近 的 邻居 中 
1; 的 普遍 度 。 决 策 树 将 DD 分 成 多 个 离散 集合 : 可 以 利用 在 d 所 属 的 离散 集中 避 的 普遍 度 来 
定义 出 一 个 得 分 。 使 用 硬 分 类 器 ， 得 到 的 千 计 不 准确 ; 使 用 bagging. boosting 或 又 加 法 求 
这 些 估计 值 的 平均 值 ， 得 到 的 是 一 个 量化 的 估计 。 
如 果 s(q ,站 不 是 一 个 好 的 替代 ， 那 么 得 到 的 结果 只 是 一 个 好 的 文档 排名 ,但 分 类 精确 
度 将 会 很 差 。 从 表 10-24 文档 排名 CMAP) 与 文档 分 类 的 效果 (1 - 误 检 率 或 MRR) 之 间 的 
反差 ， 可 以 看 出 这 种 现象 。 特 别 的 ，NB 得 到 的 MAP 值 是 0. 44， 得 到 的 MRR 值 是 0. 8， 
HAR DT (n=8) 得 到 的 MAP 值 (0. 54) 更 高 , 但 MRR 值 (0.64) 却 比 NB 得 到 的 MRR 
值 要 小 。 另 外 ， 采 用 DMC (配合 LR 一 起 使 用 ) 得 到 的 MRR (0. 86) ARR (20%) 都 
是 最 好 的 ， 得 到 的 MAP (0.74) 也 不 错 。 在 上 述 假设 下 ， 无 论 是 文档 排名 还 是 类 别 排名 ， 
采用 logistic 回归 得 到 的 效果 都 是 最 好 的 。 
当 考虑 s(d, 站 的 类 别 或 序数 值 时 ， 一 个 类 别 排名 的 定义 不 是 唯一 的 。 即 参数 最 大 这 一 
定义 可 能 是 错误 的 ， 同 时 根据 s (a ，1;) 进 行 排 名 ， 可 能 会 出 现 平 局 (多 个 文档 排名 相同 的 
情况 一 一 译 者 注 ) 。 在 这 种 情况 下 ， 需 要 打破 这 些 平局 。 如 果 平 局 出 现 不 多 ， 那 么 随机 打破 
这 些 平局 关系 是 可 以 接受 的 。 或 者 ， 可 以 利用 普遍 度 最 高 的 类 别 来 打破 平局 关系 ， 该 技术 是 
用 于 优化 微 平均 〈 不 是 宏 平 均 ) 误 检 率 的 。 更 常见 的 做 法 是 ， 通 过 第 二 个 替代 指标 sd, 
1 来 打破 平局 。 对 于 采用 普遍 度 这 一 特例 ， 有 sd, D= prel), 
使 用 第 二 个 替代 指标 其 实 是 一 个 更 一 般 化 方法 的 特殊 情况 : 将 多 个 s 叫 组 合 起 来 得 到 一 
个 合成 评分 函数 。 这 种 方法 的 实例 如 下 : 
。 文档 排名 融合 (document rank fusion) 。 对 于 每 种 语言 !， 把 k 种 文档 得 分 方法 得 到 
的 结果 ss. el Sih 组 合成 一 个 最 终 的 得 分 sse(1); 这 里 设 类 别 得 分 方 
法 su (l) =s: ld). 

。 类 别 排名 融合 (category rank fusion) 。 对 于 每 个 文档 d, 把 种 类 别 排名 方法 得 到 
AER GI, sl ee. si 组 合成 一 个 最 终 的 得 分 sd (7) ， 用 于 对 类 别 进行 排名 。 

。 多 类 方法 (multicategory methods) 。 将 文档 d 和 语言 ! 组 合 起 来 以 计算 s(Q，7) 。 


11.6.2 文档 排名 融合 与 类 别 排名 融合 


表 11-11 给 出 了 5 种 方法 组 合 9 种 特定 语言 文档 排名 方法 的 结果 ， 排 名 方法 的 结果 如 表 
表 10-24 所 示 。 为 了 进行 比较 ， 表 中 同时 列 出 了 使 用 单个 最 好 的 方法 得 到 的 结果 〈 使 用 分 类 
效果 指标 和 文档 排名 效果 指标 进行 度量 ) 。RRF 一 般 用 于 面向 主题 的 检索 ， 使 用 该 方法 将 9 
个 不 同 的 文档 排名 列表 组 合成 一 个 。 使 用 RRF 得 到 的 得 分 用 于 为 每 个 文档 所 使 用 的 语言 进 
行 排名 。 其 中 3 个 基本 排名 方法 (NB, DMC 和 梯度 下 降 LR) 是 在 线 方法 ， 所 以 可 以 使 用 
公式 (11-6) 估计 log-odds。 另 外 6 个 是 批 方法 ， 所 以 可 以 使 用 公式 (11-7) 估计 log-odds。 
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“NB Zein” 这 一 行 的 结果 是 通过 求 平均 后 得 到 的 ，“LR 赫 吉 ”这 一 行 的 结果 是 通过 对 训练 
样本 使 用 logistic 回归 组 合 起 来 得 到 的 。 将 bagging 和 boosting 用 于 建立 一 棵 节点 数 为 1024 
的 决策 树 (mn 二 8)。 其 他 文档 排名 方法 对 bagging 和 boosting 得 到 的 结果 均 没 有 作用 。 


表 11-11 对 语言 分 类 进行 文档 排名 融合 得 到 的 结果 。 表 中 的 数据 可 与 表 10-24 
中 的 数据 进行 比较 


















类 别 排名 





文档 排名 20.0 0.80 
RRF 18.9 0.87 
NB #& in 19.2 0.87 
LR 三 其 


bagging (DT; n=8, N=1024) 
boosting (DT; n=8, N=1024) 





表 11-12 列 出 了 类 别 排 名 融合 的 结果 ， 该 方法 基于 单个 文档 将 多 个 得 分 值 组 合 起 来 。 融 
合 方法 有 点 不 同 ， 因 为 没有 把 需要 排名 的 语言 分 成 训练 集 和 测试 集 。 因 此 关于 如 何 将 得 分 转 
换 成 概率 估计 的 方法 并 不 是 很 明显 。 我 们 直接 对 采用 各 种 方法 得 到 的 得 分 使 用 RRF、Con- 
dorcet 排名 合成 法 和 logistic 回归 〈 这 些 方法 不 需要 用 到 估计 )。RREF 的 效果 相对 较 差 ， 然 
而 Condorcet 提高 了 最 好 的 基本 方法 得 到 的 效果 。logistic 回归 提高 的 效果 会 更 大 。 其 实 lo- 
gisitc 回归 是 学 习 排 名 的 一 种 特殊 情况 ， 这 将 会 在 11. 7 节 中 进行 详细 介绍 。 


表 11-12 ”对 语言 分 类 使 用 类 别 排名 融合 得 到 的 结果 









方法 





RRR (%) MRR 





排名 倒数 融合 (RRF) 
Condorcet 
Logistic 回归 (LR) 


27.0 
19.5 
18.0 


0.80 
0.87 
0.88 





116.3 ”多 类 方法 


二 元 分 类 、 排 名 或 回归 等 多 种 方法 都 适用 于 直接 解决 类 别 排 名 问题 ;我 们 一 般 称 这 些 方 
法 为 多 类 (multicategory)。 一 般 在 文献 中 称 这 为 多 项 式 的 (multinomial) 或 多 分 类 的 
(polytomous) ， 与 其 相对 的 是 二 项 式 的 《binomial) HORAN (dichotomous), 

1. 一 对 多 

到 目前 为 止 ， 我 们 所 介绍 的 方法 都 是 首先 解决 文档 排名 问题 ， 然 后 将 这 些 排名 结果 组 合 
起 来 去 解决 类 别 排名 问题 。 这 种 方法 一 般 称 为 一 对 多 法 Cone versus rest)， 因 为 该 方法 将 % 
个 二 元 分 类 问题 的 结果 组 合 起 来 ， 且 每 个 二 元 分 类 问题 都 是 把 一 个 类 别 从 剩 下 的 类 别 中 分 离 
出 来 。 到 目前 为 止 ， 我 们 已 经 假设 一 个 软 分 类 器 的 结果 表示 的 是 一 个 可 信和 度 ， 并 从 % 个 一 
对 多 的 结果 中 选 出 可 信和 度 最 高 的 类 别 。 

一 对 多 法 对 于 二 元 硬 分 类 器 是 有 问题 的 。 如 果 恰 好 某 个 分 类 器 只 有 一 个 正 例 ， 也 就 刚好 
确定 了 它 的 分 类 。 但 是 如 果 没 有 结果 是 正 例 ， 或 多 个 结果 都 是 正 例 ， 那 就 需要 一 些 打破 平局 
的 策略 了 。 l 
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2. 一 对 一 

一 对 一 法 (one versus one) 将 原来 的 问题 简化 为 n(n—1)/2 个 二 元 分 类 的 问题 ， 为 任 
意 两 个 类 别 设计 一 个 二 元 分 类 器 。 以 选举 〈election) 的 方式 将 这 n(n—1)/2 结果 组 合 起 
来 ， 以 为 某 个 文档 选取 所 属 的 类 别 或 对 类 别 进行 排名 。 人 们 已 经 研究 过 大 量 的 选举 策略 ， 但 
本 书 不 会 给 出 这 些 策 略 的 综合 讨论 。 最 简单 的 方法 也 许 就 是 为 每 个 类 别 统 计 选 票 〈 即 正 例 
BO, ， 并 根据 这 个 统计 值 排名 。 但 平局 〈 统 计 值 一 样 一 一 译 者 注 ) 的 情况 依然 可 能 出 现 ， 不 
过 只 有 在 二 元 分 类 器 的 结果 不 一 致 的 情况 下 才 会 出 现 。 有 多 种 决胜 选举 (runoff) 策略 可 以 
用 于 解决 这 种 平局 的 情况 。 在 很 多 情况 下 ， 解 决 这 种 平局 的 情况 可 以 通过 对 统计 值 相同 的 类 
别 再 次 进行 投票 来 解决 。 另 外 ， 也 可 以 考虑 使 用 软 分 类 器 的 可 信和 度 。 

3. 多 类 logistic 回归 

logistic 回归 特别 适合 多 类 回归 ， 从 而 也 适用 于 排名 。 回 想 前 面 的 〈 二 项 式 ) logistic E 


归 估计 : 
logOdds|z] = log (FEI) = log (; Pel) (11-16) 


其 中 x 是 我 们 感 兴趣 的 某 些 二 元 属性 ， 而 丈 是 它 的 补 集 。 

在 那个 语言 分 类 的 例子 中 ， 我 们 对 多 类 排名 使 用 logistic 回归 ， 方 法 如 下 : 对 于 每 个 类 
Bq: A<i<n), Ala: 表示 文档 d 与 其 所 属 类 别 的 关系 dE€ q. WH logistic 回归 ， 单 独 
为 每 个 类 别 计算 lizlogOdds [wi;]。 使 用 这 种 方法 进行 排名 也 是 合理 的 ， 因 为 上 可 以 合理 
地 表示 文档 dE gq; 这 一 证 据 的 强度 。 因 此 可 以 推导 出 一 条 概率 估计 公式 ; 


Pi =logit ! (1 一 i er œ Pri] (11-17) 


但 这 个 概率 估计 不 适用 于 类 别 是 排他 的 情况 〈 正 如 它 也 不 适用 于 那个 语言 分 类 的 例子 一 样 ) 。 
它 不 能 满足 所 有 概率 的 总 和 为 1 这 一 限制 : 


1= 》 Pr (11-18) 

i=1 
进行 验证 后 再 尝试 满足 这 个 限制 条 件 得 到 的 估计 并 不 好 。 这 里 我 们 只 提出 两 种 建议 ， 以 避免 
这 个 问题 。 第 一 种 建议 是 归 一 化 p; 以 使 它们 的 和 为 1， 如 公式 〈11-18); 第 二 种 建议 是 除 


了 一 个 p;:， 其 余 的 均 使 用 logistic 回归 进行 估计 ， 然 后 使 用 公式 〈11-18) 把 第 n 个 解 出 来 。 
一 种 更 好 的 方法 是 使 用 logistic 回归 去 估计 两 个 概率 间 的 比 〈ratio) 

















. rym p (11-19) 
J 
并 计算 p 以 使 其 满足 公式 01-19 和 公式 〈11-19)。 这 种 方法 只 要 求 我 们 计算 全 50 一世 


个 可 能 需要 估计 的 7jy 中 的 〈n 一 1) 个 就 可 以 了 ; 镜 下 的 都 是 多 余 的 。 可 任意 选择 计算 哪个 
ry， 只 要 这 些 值 能 构成 一 个 基 ， 使 所 有 的 7 都 能 计算 出 来 。 | 
一 种 标准 的 选择 就 是 基准 类 别 logit 模型 (baseline category logit model)。 在 这 个 模型 
中 ， 我 们 视 c 为 基准 ， 并 为 所 有 的 i 计算 ri。 对 于 i 二 1， 由 定义 有 
Tu=1 (11-20) 
对 于 i 之 1， 当 所 有 其 他 类 别 都 被 排除 后 ， 我 们 首先 注意 到 rj 重 写 为 wi So; 的 概率 比 是 有 
可 能 的 : 
Pr[zi] 
"a Priz] 





= Oddsļz; | xi 或 zj (11-21) 
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因此 ， 
ri 一 et (> 1) (11-22) 
其 中 
li logOdds[zi|zl 或 zi] (11-23) 
也 就 是 ， 通 过 logistic 回归 使 用 类 别 gi 或 q; 训练 文档 a 便 可 计算 1; ， 并 不 是 使 用 剩 下 的 文 
档 : dE€E(qiUgq) NT, 对 于 i, j>l, 
E 示 一 型 人 了 > 了 (11-24) 
给 定 {ra} 时， 计算 pi 就 很 直接 了 ， 
Pi= 


Ti j 


= Ti (11-25) 
出 于 某 些 已 经 超出 本 书 范 围 以 外 的 原因 ， 无 论 选 择 哪 个 类 别 g; 作为 基准 ，2p; 的 计算 结果 都 
是 一 样 的 (Agresti，2007)。 

4. 多 类 SVM 

回想 起 CW) 支持 向 量 机 就 是 要 找到 两 个 类 别 间 的 可 分 离 超 平面 ， 从 而 找到 间隔 大 小 
和 被 错误 分 类 的 点 的 数量 (严重 程度 ) 的 一 个 平衡 。 对 于 文档 排名 ， 一 个 多 类 SVM 
(Crammer 和 Singer, 2002) 为 其 构造 n 个 超 平 面 ， 但 只 把 所 有 的 间隔 和 错误 分 类 的 点 看 成 
一 个 普通 的 优化 问题 。 也 就 是 ， 多 类 SVM 在 最 大 化 % 个 最 小 的 间隔 与 所 有 被 错误 分 类 的 点 
的 数量 REE) 间 找 到 一 个 平衡 。 因 此 ， 更 直接 的 做 法 是 解决 分 类 错误 ， 而 不 是 使 用 
logistic 回归 ， 因 为 logistic 回归 只 关心 在 所 有 类 别 上 的 概率 分 布 。 

5. 多 类 boosting 

相似 的 做 法 可 用 于 boosting。 多 类 boosting 针对 所 有 类 别 优化 训练 误差 (Schapire 和 
Singer，2000)， 而 不 是 单独 为 每 个 类 别 计算 w Ma. 

表 11-13 列 出 了 一 对 多 法 和 多 类 语言 分 类 的 比较 结果 ， 数 据 采 用 TREC 主题 383。 总 的 
来 说 ， 很 难 从 这 些 结果 中 总 结 出 采用 哪 一 种 方法 会 得 到 好 的 效果 。 多 类 SVM (SVM-Multi- 
class?) 的 效果 会 差 一 点 ， 除 了 6c 二 10 000 这 一 极端 情况 下 ， 它 的 效果 要 稍微 好 于 另外 一 种 
方法 。 多 类 boosting (Boostexter>) 的 效果 有 明显 的 提高 ， 但 是 这 是 在 基于 一 个 很 差 的 基 
准 的 基础 上 。 





表 11-13 一 对 多 法 与 多 类 语言 分 类 的 结果 比较 










多 类 











BRE (%) 





RE (%) 





























LR 20.0 

SVM (C=0.01) 20.1 29.9 0.79 

SVM (C=1) 20.0 31.8 0.74 

SVM (C=100) 20.0 22.8 0.84 

SVM (C=10 000) 20.0 19.7 0.86 
46.4 32.2 0.76 








Boosted stumps (N=1024) 





© svmlight. joachims, org/svm_multiclass, html 
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11.7 学 习 排 名 
学 习 排 名 earning to rank) 这 个 术语 用 于 描述 在 对 象 集 R 中 估计 正确 排序 
<: RXR 
的 问题 。 相 反 ， 分 类 和 回归 估计 基 些 关于 有 的 元 素 的 理想 函数 ， 
ideal : R — {true, false} 或 ideal: R—-R 
在 这 一 广泛 的 特征 下 ， 我 们 已 经 给 出 了 很 多 关于 学 习 排 名 的 例子 。 例 如 ， 当 RED 时 ， 我 
们 根据 某 种 假设 的 相关 性 概念 对 文档 排名 ; 例如 ， 对 某 些 特定 查询 9 的 二 元 相关 性 ， 
di < dz =def (di $ rela H do € rel) (11-26) 
对 于 文档 排 和 名， 学 习 器 【 把 一 个 训练 集 TCD 和 一 个 标记 函数 label， T> (rel, non} 作 
为 输入 ， 输 出 一 个 评分 函数 s : D 一 RR。 通 过 定义 它 的 输出 为 : DXD, CAAT RUE 
的 正确 排序 <) ， 结 果 可 根据 学 习 排 名 进行 整合 ， 
dy < dz =aef 8(dy) < s(d2) (11-27) 
注意 到 到 是 一 个 典型 的 偏 序 。 有 很 多 文档 对 di 天 ds， 使 得 di 4 d: 和 ds dis XFA 
st (11-26) 来 说 ， 无 论 是 d1，ds€ rel, 或 d1，ds 儿 Tels， 上 述 情况 都 会 出 现 。 估 计 才 可 
能 也 会 是 一 个 偏 序 。 然 而 ， 如 MAP 和 P@k 这 些 信息 检索 评价 指标 假设 它 是 全 序 的 。 如 果 
不 是 全 序 ， 因 为 对 于 某 些 di. Ad., A s(di)=s(d.), AlbRtrec_eval (参见 2.3.2 节 ) 这 
样 的 评价 软件 会 随意 假设 di<d, 或 di<di. 


11.7.1 什么 是 学 习 排 名 


在 文献 中 “学 习 排 名 ”一 词 指 比 我 们 举 出 的 例子 更 一 般 的 学 习 问 题 ， 在 这 些 问 题 中 ，g 
和 DD 是 固定 的 ， 愉 是 指 二 元 相关 性 。 尽 管 关 于 什么 是 学 习 排 名 没有 一 个 大 家 都 接受 的 定义 ， 
但 是 该 词 还 是 隐 含 了 以 下 几 个 方面 的 含义 : 

。 TEY, d 的 特征 表示 HER q Ald 采用 多 种 不 同 的 特征 工程 和 排名 公式 得 到 的 结果 。 
去 的 更 一 般 的 特性 ， 与 二 元 相关 性 相对 〈 公 式 〈11-26))。 例 如 ， 分 级 相关 性 〈gra- 
ded relevance) 假设 存在 一 个 关于 个 相关 类 别 的 有 序 集 rel e, rel, HP 
rel?) 与 9 的 相关 性 最 低 ， 而 rel! Bq 的 相关 性 最 高 (参见 12. 5. 1 节 ) 。 在 分 级 相 
关 性 下 ， 有 


dix d & dı € rell! H. dz € rell! (i < j) (11-28) 
g q 


学 习 一 族 排名 的 问题 ， 其 中 <* AIS, 均 使 用 gE Q 参数 化 。 

查询 限制 训练 标记 ， 其 中 di <d: 只 在 qEQr 的 情况 下 才 知 道 ，Qr 是 一 个 查询 训 
练 的 集合 ， 是 Q@ 的 一 个 非常 小 的 子 集 。 

成 对 训练 ， 其 中 did: 只 在 q. dis d) CQrXDrXDr 的 情况 下 才 知道 ， 旦 
DrSD 是 一 个 查询 训练 集 。 

LETOR 测试 数据 集 S 给 出 了 一 个 标准 的 关于 信息 检索 的 学 习 排 名 的 例子 。 在 LE- 
TOR 中 ,训练 集 T POAT AREY 3 WA (g elt, r) € Qr XR*XZ， 其 中 
QrCQ 是 一 个 查询 训练 集 ，%r'* 二 8s1(d，9)，sz (dQ,，9),…,ss《d，9) 是 对 关于 4g 
的 文档 a 采用 个 不 同 的 评分 孙 数 得 到 的 特征 表示 ， 且 7 ERK: 





© research. microsotft.com/en-us/um/beijing/projects/letor 
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vaser:r <ra  (q,d1) <q (9,42) (11-29) 
。 一 个 使 用 点 击 数据 (clickthrough data) (Joachims A, 2005) 来 得 到 成 对 的 、 不 确定 
的 训练 样本 的 标准 例子 。 假 设 搜 索引 擎 对 查询 q 进行 响应 时 呈现 给 用 户 一 个 排名 列表 
Res 。 同 时 假设 用 户 查 看 了 排名 为 〖 的 文档 d ;二 ResLk]， 但 没有 查看 排名 比 它 更 高 的 文 

档 or 一 ResL7]， 其 中 JE。 从 这 些 信息 我 们 可 以 推断 ， 根 据 概 率 平衡 ， 有 
dj <q dk (11-30) 
这 个 推断 是 不 确定 的 ， 因 为 它 可 能 是 错误 的 ， 同 时 这 个 推断 是 不 完整 的 ， 因 为 di <de 

只 为 一 个 子 集 (di ,do)EDrXxDr 定义 。 


11.7.2 ”学 习 排 名 的 方法 


学 习 排 名 的 方法 通常 特征 化 为 逐 点 (pointwise), AX (pairwise) 或 成 列 Clistwise), 
这 依赖 于 它们 是 如 何 进行 训练 的 (Cao 等 人 ，2007) 。 逐 点 法 将 问题 简化 为 : 根据 文档 a 与 
查询 g 相关 的 概率 给 每 个 (dQ, 9) 评分 。logisitc 回归 直接 估计 这 个 概率 (与 log-odds 一 
样 );， 并 最 大 化 所 有 标记 样本 的 似 然 值 。 其 他 方法 ， 如 线性 回归 、 排 名 感知 和 神经 网 络 ， 当 
d 被 标记 为 与 g 相关 时 ， 一 般 会 得 到 一 个 比 〈d ,9g) 更 高 的 得 分 ， 当 d 被 标记 为 与 9 不 相关 
时 ， 一 般 会 得 到 一 个 更 低 的 得 分 。 支 持 向 量 机 在 寻找 一 个 超 平面 ， 把 相关 的 〈ad ,9) 样本 与 
不 相关 的 分 离开 。 

逐 点 支持 向 量 机 法 说 明了 逐 点 法 可 能 存在 的 缺点 。 尽 管 由 定义 我 们 有 

(di,q1) * (d2,q2) (q1 # 42) (11-31) 

BNE qg: 时 ， 支 持 向 量 机 还 是 尝试 把 所 有 的 相关 的 〈ai ，9i) 从 不 相关 的 〈adz q2) 
中 分 离 出 来 。 排 名 支持 向 量 机 Cranking SVM) 只 考虑 在 qi 二 gs 的 情况 下 优化 间隔 和 训练 
误差 。 实 际 上 ， 排 名 SVM 建立 | Qzr| 用 于 区 分 不 同 的 分 离 超 平面 ， 且 为 每 个 查询 9€ Qr 均 
建立 一 个 。 采 用 类 似 的 做 法 ， 其 他 的 逐 点 法 也 适用 于 成 对 训练 。 

成 列 法 单独 考虑 每 个 查询 9€ Qr 在 整个 集合 DrX {9} 中 的 排名 。 这 种 方法 的 一 个 优点 
是 很 容易 对 在 每 个 Dr 中 高 排名 的 文档 赋予 更 多 的 权重 ， 以 此 提高 查 准 率 或 任何 其 他 方面 的 
检索 效果 。 从 另外 一 方面 看 ，| Dr|! 可 能 是 Dr 的 一 种 组 合 方式 ， 因 此 为 最 好 的 结果 找 出 
一 个 紧凑 和 普遍 的 表示 方式 是 非常 具有 挑战 性 的 工作 。 


11.7.3 优化 什么 


每 个 学 习 方 法 都 会 优化 一 些 目 标 函 数 ( 最 小 化 一 些 损失 函数 )， 但 也 有 一 些 限制 。 在 学 
习 排名 中 ， 也 许 最 明显 的 损失 函数 就 是 那些 反 演 函数 了 ; 学 习 到 的 顺序 对 和 理想 的 顺序 对 是 
相反 的 : 

inv = { (d1, q1), (d2,42) | (d1,41) < (d2,92) FL s(d2,q2) < s(di,a1)}| (11-32) 
当 冯 表示 二 元 相关 时 ， 最 小 化 inw 等 同 于 最 小 化 AUC， 其 中 AUC 指 ROC 曲线 下 的 面积 。 
当 到 表示 一 个 全 序 时 ， 最 小 化 inv 等 同 于 最 大 化 Kendall 的 7 相关 性 : 
T=2. (1— inv) (11-33) 
最 小 化 inv 可 能 不 会 最 大 化 检索 的 有 效 性 ， 但 通常 会 强调 查 准 率 而 不 是 查 全 率 。 当 对 排名 最 
高 的 文档 赋予 的 权重 比 其 他 的 文档 都 要 高 时 ， 如 MAP. P@k 和 nDCG 这 些 指标 会 提高 。 
一 般 来 说 ， 直 接 优化 这 些 指 标 是 不 合适 的 ， 因 为 它们 是 不 连续 的 和 非 凸 的 。 一 些 方 法 使 用 连 
续 的 、 凸 的 函数 蔡 代 损失 函数 ， 以 逐渐 接近 这 些 指 标的 上 界 。 
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11.7.4 分 类 的 学 习 排名 


我 们 用 于 分 类 的 排名 融合 (参见 11. 6 节 ) 就 是 学 习 排 名 的 一 个 例子 ， 尽 管 D 和 Q 的 意 
义 与 上 面 介绍 的 相反 。 我 们 希望 计算 < :DXL)XC(DXL)， 基 本 满足 
(a, (dled 有 语言 (六 (11-34) 
两 种 评价 “接近 程度 ”的 评价 指标 是 精确 度 《1 - 误 检 率 ) 和 MRR。 每 个 dg，1)》 的 特征 表 
示 包 含 
lèh = (r, s1(d,1), s2(d, 1), sk(d,1)) (11-35) 
其 中 


0 GHEE! 40 (11-36) 
Sm (dy 1) = 从 基本 方法 ”中 计算 得 到 的 a 和 /的 得 分 (11-37) 
在 表 11-12 中 ，RRF 和 Condorcet 的 结果 是 固定 规则 ， 而 不 是 学 习 方法 ， 但 使 用 它们 计算 得 
到 的 结果 与 logistic 回归 得 到 的 结果 是 一 样 的 ， 这 里 logistic 回归 是 一 个 逐 点 学 习 方法 。 
为 了 采用 成 对 或 成 列 法 ， 需 要 在 特征 表达 式 (dL) 中 就 能 区 分 出 某 个 特定 文档 d, A 
使 得 一 个 由 普通 文档 a 构成 的 子 集 为 ， 
olde = (r, i, 51 (di, 1), 82(di,l),-+ +, sk(di, l)) (11-38) 
表 11-14 再 一 次 给 出 了 逐 点 LR 的 结果 ， 同 时 还 给 出 了 运用 在 语言 分 类 排名 问题 上 的 排名 
SVM (SVM) 的 结果 ， 这 里 使 用 了 两 个 不 同 的 正则 化 参数 C。 对 于 两 种 情况 ， 排 名 
SVM 得 到 的 结果 都 稍 优 于 逐 点 logistic 回归 得 到 的 结果 。 


表 11-14 ”对 语言 分 类 采用 排名 SVM 得 到 的 结果 


| (4 有 语言 ) 








方法 RRE A) MRR 
LR ( 逐 点 ) 18.0 0.88 
排名 SVM (C=0.01) 17.3 0.88 
排名 SVM (C=0.1) 17.6 0.88 


ee EL -一 


11.7.5 ”排名 检索 的 学 习 


表 11-3 展示 了 固定 组 合 方法 有 效 地 把 来 自 各 种 检索 方法 的 结果 组 合 起 来 。 因 为 4 个 实 
验 中 都 采用 了 相同 的 方法 ， 我 们 现在 研究 采用 学 习 排 名 法 来 得 到 一 个 更 好 的 组 合 方法 的 可 能 
性 。 为 此 ， 把 TREC45 1998, GOV2 2004 runs 和 qrels 看 做 训练 样本 和 标签 ， 并 把 
TREC45 1999 和 GOV2 2005 runs 看 做 相应 的 测试 样本 。 每 个 样本 〈Q，9;)〉 表示 成 一 个 查 
询 向 量 

i499] = (r, j, 81(d, qj), 82(4, Gy), °° + Sk(d, 9) (11-39) 

其 中 大 一 29 表示 方法 的 数量 。 对 于 这 个 问题 ， 我 们 采用 GÆ) logistic 回归 和 排名 SVM. 

表 11-15 列 出 了 采用 logisitc 回归 和 排名 SVM 得 到 的 结果 ， 并 与 排名 倒数 融合 这 一 基准 
方法 得 到 的 结果 进行 比较 。 很 难说 明 LR 的 结果 本 质 上 是 与 基准 方法 的 结果 不 同 的 。 排 名 
SVM (SVM-Rank®) 的 结果 相对 差 一 点 ， 并 大 约 需要 4 天 的 CPU 时 间 去 处 理 GOV2 数据 
集 ， 而 采用 RRF 只 需要 几 秒 ， 采 用 LR 仅 需 几 分 钟 即 可 。 


© www.cs.cornell.edu/ people/t/ svm_light/svm_rank. html 


第 11 章 融合 和 元 学 习 


表 11-15 logistic 回归 学 习 排名 的 结果 ， 学 习 方 法 是 在 某 年 的 检索 结果 上 进 


行 训练 的 ， 并 且 在 下 一 年 的 主题 上 进行 测试 


语料库 
训练 
wy 


TREC45 
1998 
1999 


GOV2 
2004 
2005 





指标 


P@10 


P@10 


MAP 





RRF 
LR 
排名 SVM (C=0.02) 


11.7.6 LETOR 数据 集 


0.464 
0.446 
0.420 


0.570 
0.588 
0.556 


0.352 
0.309 
0.268 


+275 


LETOR 是 一 个 针对 学 习 排 名 的 基准 数据 集 (Liu 等 人 ，2007)， 是 用 于 评价 学 习 排 名 方 
法 的 测试 集 。 在 写 这 本 书 的 时 候 ， 第 3 版 的 LETOR 数据 集 是 最 新 的 。LETOR 3 由 7 个 数 
据 集 组 成 ， 每 个 包含 如 公式 (11-39) 的 格式 的 样本 。 这 些 样本 被 分 成 5 个 标准 块 ， 为 的 是 
可 以 进行 5 次 交叉 验证 。 其 中 的 6 个 数据 集 选 用 的 文档 来 自 TREC GOV (不 是 GOV2) X 
档 集 ， 选 用 的 主题 来 自 TREC 2003 和 TREC 2004 网 络 检索 任务 。 其 中 一 个 数据 集 使 用 的 文 
档 和 主题 均 来 自 OHSUMED 文档 集 。 对 于 TREC 文档 集 ， 相 关 性 是 二 元 的 ， 并 且 共 有 64 
种 特征 以 表示 查询 和 文档 的 不 同 特征 。 对 于 OHSUMED 文档 集 ， 相 关 性 是 三 元 的 《不 相 
关 、 相 关 和 高 度 相 关 )， 并 且 有 45 个 基于 内 容 的 特征 。 标 准 评价 工具 由 语料库 提供 。 


LETOR 数据 集 还 附带 几 个 最 新 的 学 习 排 名 方法 得 到 的 原始 结果 集 Res; 和 Score: : 
ListNet (Cao 等 人 ，2007) 使 用 梯度 下 降 去 优化 列表 式 目 标 函 数 。 
AdaRank-MAP (Xu # Li, 2007) 使 用 带 蔡 代 目标 函数 的 AdaBoost， 目 的 是 优化 平 


均 查 准 率 。 


结果 间 的 反 演 。 


RankBoost (Freund 等 人 ，2003) 使 用 AdaBoost 去 最 小 化 成 对 训练 样本 和 排名 列表 


。 RankSVM 的 实现 与 SVM' 品 是 一 样 的 ， 我 们 把 该 方法 用 于 语言 分 类 ， 以 最 小 化 成 对 


训练 样本 间 的 反 演 。 


这 里 有 680 个 主题 ， 每 个 主题 都 包含 多 达 1000 个 文档 。 尽 管 是 单独 在 这 7 个 数据 集 上 对 
方法 进行 训练 ， 表 11-16 列 出 了 对 680 个 主题 的 P@10 和 AP 得 分 求 平均 得 到 的 综合 结果 。 表 
中 还 包含 了 前 面 例 子 中 使 用 的 逐 点 LR Git) 法 得 到 的 结果 。LR (梯度 下 降 ) 使 用 带 目标 函数 


的 梯度 下 降 对 式 LR 方法 ， 目 标 函 数 增加 了 某 些 与 高 排名 不 相关 文档 有 关 的 反 演 的 权重 。 


表 11-16 对 LETOR 3 语料库 中 的 583 850 个 文档 查询 对 采用 学 习 排 名 得 到 的 结果 。P@ 10 和 
MAP 这 两 个 得 分 是 680 个 主题 的 得 分 结果 的 平均 值 ， 其 中 这 680 个 主题 来 自 7 个 LE- 


TOR 3 数据 集 。RRF、Condorcet 和 CombMNZ 融合 了 各 个 学 习 排 名 方法 的 结果 











方法 P@10 MAP 
ListNet (Cao 等 人 ，2007) 0.1853 0.5846 
LR (梯度 下 降 ) 0.1821 0.5837 
AdaRank-MAP (Xu # Li, 2007) 0.1789 0.5778 
排名 SVM (Joachims, 2002) 0.1811 0.5737 
LR (H) 0.1780 0.5715 
RankBoost (Freund $A, 2003) 0.1836 0.5622 
RRF i 0.1902 0.6051 
Condorcet 0.1907 0.5917 
CombMNZ 0.1893 0.6107 
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RRF, Condorcet 和 CombMNZ 这 些 融 合 方法 将 6 种 学 习 排 名 方法 的 结果 组 合 起 来 ， 提 
高 了 P@10 和 MAP 的 效果 。 在 写 这 本 书 的 时 候 ， 还 没有 出 现 能 趣 过 这 些 融 合 结果 的 排名 学 
习 方法 。 另 外 ， 使 用 统计 分 析 不 能 从 这 6 种 独立 的 方法 中 得 到 任何 有 意义 的 差别 (Cormack 
等 人 ，2009) 。 


11.8 ”延伸 阅读 

Belkin 等 人 (1995〉 的 报告 是 早期 对 不 同 查 询 的 检索 结果 进行 组 合 的 一 种 尝试 ， 这 些 查 
询 都 是 通过 人 工 或 者 自动 从 一 个 TREC 主题 中 提取 出 来 的 。 本 章 介 绍 了 一 系列 的 得 分 组 合 
方法 CombMNZ 是 其 中 一 种 。 对 这 些 方法 进行 大 量 的 后 续 研 究 后 发 现 ， 使 用 这 些 方法 把 
各 种 检索 结果 组 合 起 来 是 非常 有 效 的 《如 Lee，1997)。Montague 和 Aslam (2002) 研究 并 
评价 了 得 分 组 合 以 及 选举 方法 ， 还 提出 把 Condorcet 用 作 选 举 方法 。Voorhees 等 人 (1995) 
考虑 了 测试 集 融 合 ， 这 里 对 无 交集 的 文档 集 使 用 同一 个 查询 。 元 搜索 (metasearch) 通常 用 
于 求 组 合 结果 的 平均 ， 这 些 组 合 结果 来 自 自主 搜索 引擎 ，Meng SA (2002) 对 这 进行 了 
研究 。 

Vogt 和 Cottrell (1999) 研究 了 把 线性 回归 用 于 组 合 基于 训练 样本 的 检索 结果 。 允 olp- 
ert (1992) REKESZ EID 是 一 种 标准 的 机 器 学 习 方法 。 在 我 们 例子 中 特别 用 到 
的 log-odds 变换 和 梯度 下 降 均 由 Lynam 和 Cormack (2006) 提出 bootstrap 集成 法 (bag- 
ging; Breiman, 1996) 和 boosting (Schapire，2003)》 与 合 加 类 似 ， 均 是 机 器 学 习 中 的 重要 
方法 。 大 部 分 的 机 器 学 习 教 科 书 (如 Hastie 等 人 ，2009) FEB, bagging 和 boosting 这 
些 集 成 方法 作为 主要 介绍 的 主题 。 

多 类 logistic 回归 像 logistic 回归 本 身 一 样 ， 是 一 种 普通 数据 分 析 的 标准 技术 (Hosmer 
和 Lemeshow，2000) 。Crammer 和 Singer (2002) 为 多 类 支持 向 量 机 提出 了 一 种 实用 算法 。 
Schapire 和 Singer (2002) 提出 了 boosting 在 多 类 问题 中 的 应 用 。 

在 NIPS 2005, SIGIR 2007 和 SIGIR 2008 的 研习 会 《workshop〉 中 ， 学 习 排 名 已 经 变 
成 了 一 个 主题 。 尽 管 如 此 ， 对 于 学 习 排 名 ， 和 暂时 还 没有 一 个 精确 的 定义 。Burges 等 人 
(2005). 和 Joachims 等 人 〈2005) 的 学 术 论文 把 学 习 排名 定义 为 学 习 和 目标 排名 间 的 最 小 
反 演 ，Burges 等 人 使 用 Ranknet 这 一 方法 中 的 梯度 下 降 ， 然 而 Joachims 等 人 使 用 支持 向 
EHL. 

LISA (2007) 把 学 习 排名 看 做 一 个 多 类 分 类 问题 ， 其 中 每 个 分 级 相关 性 层 表示 对 应 
一 个 类 别 。Herbrich 等 人 (2000) 和 Freund A (2003) 描述 了 成 对 法 。Xu 和 Li (2007) 
描述 了 AdaRank-MAP 列表 式 方法 ; Burges 等 人 (2006) 描述 了 LambdaRank 列表 式 方 法 。 
Svore 和 Burges (2009) 证 明了 在 使 用 相同 的 特征 集 时 ，LambdaRank 的 性 能 可 以 比 BM25 
好 。Yilmaz 和 Robertson (2010) 讨论 了 把 信息 检索 评价 指标 看 做 学 习 排 名 的 优化 目标 。 
LETOR 数据 集 (Liu 等 人 ，2007〉 为 评价 学 习 排名 法 提供 了 一 个 标准 基准 。Liu (2009) 研 
究 了 当前 的 学 习 排 名 方法 。D. Sculley 给 出 的 sofia-ml 包 为 机 器 学 习 提 供 了 一 套 新 的 快速 增 
量 算法 .9 








© code. google. com/p/sofia-ml 
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11.9 练习 


练习 11. 1 下 载 一 个 TREC 测试 集 以 及 一 个 或 多 个 搜索 引擎 。 在 这 些 主题 上 ， 对 搜索 引擎 设置 不 同 的 
配置 并 运行 ， 使 用 RRF, CombMNZ 和 Condorcet 将 这 些 结果 组 合 起 来 。 比 较 这 些 结果 。 

练习 11.2 下载 一 个 TREC Spam Filter Evaluation Toolkit， 在 示例 语料库 上 运行 几 个 示例 过 滤器 。 使 
用 选举 方法 、 朴 素 贝 叶 斯 和 logistic 回归 将 这 些 结果 组 合 起 来 。 评 价 这 些 结果 。 

练习 11.3 使 用 RRF、CombMNZ 和 Condorcet 将 你 的 垃圾 信息 过 滤器 的 运行 结果 组 合 起 来 。 这 个 实 
验 会 适当 为 垃圾 信息 过 滤器 的 用 法 建 模 吗 ? 采用 这 些 方 法 会 比 采 用 选举 方法 、 朴 素 贝 叶 斯 和 logistic 回归 得 
到 的 结果 要 好 吗 ? 

练习 11.4 下 载 LETOR 3 数据 集 。 对 该 数据 集 采 用 一 种 或 多 种 学 习 排 名 法 〈 如 SVM), RRS 
的 结果 与 公布 的 基准 进行 比较 。 

练习 11.5 忽略 qid 域 ， 直 接 对 LETOR 3 数据 集 采 用 logistic 回归 (如 LibLinear)。 将 这 个 结果 与 使 
用 学 习 排 名 法 得 到 的 结果 进行 比较 。 
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度量 有 效 性 


评价 的 目的 是 度量 一 个 信息 检索 方法 多 好 地 实现 了 它 的 预期 目标 。 评 价 必须 能 估计 在 给 
定 情 况 下 某 种 信息 检索 方法 的 有 效 性 ， 并 且 在 相同 情况 下 与 另外 一 种 方法 的 有 效 性 进行 比 
较 ， 或 预测 该 方法 在 不 同情 况 下 的 有 效 性 。 如 果 没 有 了 评价 ， 则 很 难 做 出 明智 的 部 署 决策 或 
发 现 更 好 的 方法 。 一 个 可 用 的 评价 方法 必须 具备 以 下 几 项 条 件 : 

。 一 个 能 表示 信息 检索 方法 预期 目标 的 特征 ; 

。 一 个 用 于 量化 关于 多 好 地 实现 了 预期 目标 这 一 概念 的 指标 

。 一 种 准确 、 精 确 而 又 经 济 的 度量 技术 ; 

。 一 个 用 于 度量 误差 的 估计 方法 。 

本 章 将 涉及 以 上 关于 信息 检索 评价 的 几 个 方面 ， 并 直接 建立 在 2. 3 节 介 绍 的 内 容 之 上 ， 
这 些 内 容 都 是 关于 基本 特定 检索 任务 的 评价 。 

在 12.1 节 ， 我 们 将 回顾 在 传统 信息 检索 评价 中 使 用 的 主要 有 效 性 度量 ， 并 讨论 与 之 对 
应 的 检索 任务 。12. 2 节 将 描述 文本 检索 会 议 (Text REtrieval Conference, TREC) 中 使 用 
的 评价 方法 ， 这 代表 了 信息 检索 评价 中 的 事实 标准 ， 并 被 大 部 分 研究 者 所 采用 。12. 3 节 的 
主题 是 评价 结果 的 统计 分 析 。 我 们 将 讨论 常用 的 分 析 技 术 用 于 信息 检索 时 的 情况 ， 如 置信 区 
间 、 显 著 性 检验 等 ， 以 及 一 些 较 不 常用 的 方法 ， 例 如 独立 实验 的 元 分 析 。 同 时 也 根据 检验 力 
(power) 和 效 度 (validity) 这 两 方面 比较 几 个 统计 检验 ， 也 就 是 : 统计 检验 能 多 精确 地 检 
测 出 进行 对 比 的 检索 函数 间 的 差异 ， 以 及 它们 的 判断 有 多 准确 。 在 12. 4 节 ， 我 们 将 探索 在 
保持 评价 结果 可 靠 性 的 同时 减少 相关 性 判断 次 数 的 方法 。 最 后 ，12. 5 节 将 介绍 所 有 扩展 了 
或 使 用 了 12. 1 节 中 介绍 的 传统 评价 方法 解决 问题 的 有 效 性 评价 指标 。 这 些 评价 方法 考虑 了 
多 级 相关 性 判定 〈 不 仅仅 是 二 元 相关 /二 元 不 相关 评价 方法 ) 和 不 完整 判定 ， 还 有 新 颖 性 和 
多 样 性 。 

除 本 章 外 ， 其 他 章 将 从 其 他 方面 讨论 评价 方法 。 第 10 章 包含 了 用 于 过 滤 和 分 类 的 评价 
方法 。 第 15 章 包含 了 关于 Web 的 问题 以 及 评价 方法 。 第 16 章 就 XML 信息 检索 的 有 效 性 评 
价 给 出 了 一 个 概述 。 


12.1 传统 的 有 效 性 指标 


传统 的 信息 检索 评价 基于 以 下 两 个 基本 假设 : 
1) 给 定 一 个 以 检索 查询 表示 的 用 户 信息 需求 (information need) ， 且 在 一 个 给 定 的 文 
档 集中 ， 每 个 文档 与 此 信息 需求 要 么 相关 (relevant) 要 么 不 相关 (nonrelevant)。 
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2) 文档 d 的 相关 性 仅 取 决 于 信息 需求 和 a 本 身 ， 独 立 于 文档 集中 的 其 他 文档 的 搜索 引 
SHES 

基于 这 两 个 假设 ， 可 以 定义 各 种 不 同 的 有 效 性 指标 。 其 中 的 一 些 指标 已 在 2. 3 节 中 出 现 
过 了 。 


12.1.1 查 全 率 和 查 准 率 


查 全 率 和 查 准 率 ， 或 许 是 信息 检索 评价 中 最 古老 的 指标 了 ， 用 于 评价 搜索 引擎 在 响应 某 
个 查询 时 检索 出 的 无 序 文档 集 。 查 全 率 (recall) 是 在 该 文档 集中 相关 文档 所 占 的 比例 。 设 
Res 为 检索 出 的 文档 集 ，Rel 是 相关 文档 集 。 这 样 我 们 有 ， 

|ResN Rell 
recall= [Rel (12-1) 

作为 一 个 有 效 性 指标 ， 查 全 率 量 化 了 检索 结果 对 用 户 信息 需求 的 满足 程度 。 查 全 率 对 检索 任 
务 进 行 了 建 模 ， 用 户 希望 找 出 所 有 的 相关 文档 ， 如 在 文献 回顾 或 法 律 搜索 中 。 

只 需 返 回 文档 集中 的 所 有 文档 ， 一 个 搜索 引擎 可 以 很 容易 地 实现 1.0 的 查 全 率 。 当 然 ， 
如 果 这 样 做 ， 结 果 列 表 中 的 大 部 分 文档 都 是 不 相关 的 。 查 准 率 (precision) 从 另 一 方面 对 结 
果 集 进行 评价 一 一 系统 检索 出 的 相关 文档 占 检 索 出 的 所 有 文档 的 比例 ; 
|ResM Rell 

| Res| 
从 查 准 率 派生 出 的 用 户 模型 假设 ， 考虑 到 检查 结果 中 的 每 个 文档 需要 付出 代价 ， 因 此 用 户 希 
望 搜索 引擎 返回 数量 合适 的 相关 文档 。 查 准 率 是 每 单位 代价 查看 的 相关 文档 的 数量 指标 。 查 
准 率 的 倒数 等 于 用 户 在 检索 结果 集中 以 某 种 顺序 查看 文档 ， 在 找到 一 个 相关 文档 前 需要 查看 
的 期 望 文档 数 。 


12.1.2 前 天 个 文档 的 查 准 率 P@k) 


尽管 查 全 率 在 20 世纪 60 年 代 早 期 的 信息 检索 实验 中 是 一 个 不 错 的 指标 ， 但 随 着 文档 集 
的 逐年 增 大 ， 它 的 作用 越 来 越 受 到 怀疑 。 例 如 ， 对 于 TREC 主题 426 (“law enforcement, 
dogs”), CA TREC 文档 集中 有 202 个 相关 文档 。 只 有 最 好 奇 的 用 户 才 会 对 全 部 相关 文 
档 感 兴趣 。 在 Web 检索 中 ， 查 全 率 的 意义 就 更 小 了 ， 因 为 一 个 主题 有 数 以 万 计 的 相关 文档 
是 件 很 平常 的 事 〈 例 如 ， 想 想 TREC 的 主题 “drug abuse”, “vietnam war” 和 “international 
space station”) 。 

前 天 个 文档 的 查 准 率 (precision at k documents, “precision@k” W “P@k”) 对 用 户 
满意 度 建 模 ， 对 于 一 个 较 小 的 上 值 (通常 二 5，10 或 20)， 返 回 排名 最 高 的 个 文档 的 列 
表 给 用 户 。 定 义 如 下 : 





precision = (12-2) 


POk= Resit.. N Rell (12-3) 
其 中 Res[1. .由 系统 返回 的 排名 最 高 的 个 文档 组 成 。 与 无 约束 的 查 准 率 一 样 ，P@k 也 
是 假设 用 户 以 任意 顺序 查看 结果 ， 并 且 即 使 用 户 发 现 了 一 个 或 多 个 相关 的 文档 后 ， 她 依然 会 
查看 所 有 的 文档 (all of them) 。 同 时 还 假设 ， 如 果 搜 索引 人 擎 返回 排名 最 高 的 有 个 结果 中 ， 
没有 一 个 相关 的 文档 ， 说 明 查 询 失 败 ， 用 户 的 信息 需求 没有 得 到 满足 。P@k 有 时 被 称 做 早 
期 的 查 准 率 指标 (early precision measure)。P@k 没有 反映 查 全 率 ， 从 而 可 以 肯定 没有 用 
户 会 读 过 关于 “drug abuse” 或 “vietnam war” 的 所 有 相关 文档 。 
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12.1.3 ”平均 查 准 率 


通常 情况 下 ， 很 难 确定 P@k 中 的 k 应 取 何 值 。 建 议 可 取 1 王 10， 因 为 许多 搜索 引擎 默 
认 将 前 10 个 结果 显示 给 用 户 。 但 是 ， 由 于 我 们 关注 的 是 对 结果 排名 进行 评价 ， 而 不 是 对 一 
个 用 户 界 面 进 行 评 价 ， 所 以 k=10 和 取 其 他 值 一 样 ， 都 是 任意 选取 的 。 

FHER (Average Percision, AP) 尝试 将 所 有 可 能 的 查 全 率 层次 上 的 查 准 率 结 合 
起 来 以 解决 这 个 问题 ， 
| Res| 


1 
》 relevant(i) - P@i (12-4) 
i=1 


P=——. 

| Rel| 
如 果 Res 中 的 第 i 个 文档 是 相关 的 ( 即 Res[ i]€ Rel), M relevant (i) 为 1; 否则 为 0。 这 
样 ， 对 于 每 个 相关 文档 d, AP 计算 的 是 结果 列表 不 断 扩大 直至 包含 文档 a 时 的 查 准 率 。 如 
果 一 个 文档 未 出 现在 Res 中 ，AP 假设 相应 的 查 准 率 为 0。 这 样 ， 可 以 说 AP 中 隐 式 地 反映 
了 查 全 率 ， 因 为 它 考虑 了 相关 文档 不 在 结果 列表 中 的 情况 。 


12.1.4 排名 倒数 


到 目前 为 止 所 讨论 的 指标 都 假设 存在 一 个 相关 文档 集 ， 其 中 所 有 文档 都 是 同样 有 用 的 ， 
用 户 会 有 兴趣 查阅 一 定数 量 的 相关 文档 。 尽 管 这 个 假设 对 特定 检索 任务 是 合理 的 ， 但 还 是 存 
在 用 户 只 想 看 到 一 个 相关 文档 的 情况 ， 因 此 该 文档 的 排名 应 该 尽 可 能 得 高 。 例 如 ， 考 虑 查询 
(“white”, “house”, “official”, “website”)。 对 于 这 个 查询 ， 实 际 上 只 有 一 个 相关 结果 
(www. whitehouse. gov)， 返 回 的 结果 中 将 它 排 在 第 1 位 明显 比 将 它 排 在 第 5 或 第 10 位 
更 好 。 

排名 倒数 (Reciprocal Rank, RR) 是 这 样 一 个 指标 ， 它 仅 关 注 前 几 位 的 结果 ， 并 非常 
偏好 相关 文档 在 返回 的 结果 列表 中 排名 非常 靠 前 这 一 情况 。 它 的 定义 为 

1 
RR= min{k | Res[k] € Rel} 

请 注意 ， 公 式 (12-5) 允许 存在 一 个 以 上 的 相关 文档 。 如 果 |Rel1>1， 上 面 的 假设 就 变 为 : 
一 且 用 户 找 到 第 一 个 相关 文档 ， 她 的 任务 就 完成 了 。 另 一 方面 ， 如 果 只 有 一 个 相关 文档 ， 即 
|Rel | 二 1， 那么 排名 倒数 等 价 于 平均 查 准 率 。 


(12-5) 


12.15 算术 平均 与 几何 平均 


对 多 个 主题 的 评价 结果 求 平均 (计算 算术 平均 值得 到 聚合 结果 。 相 应 的 评价 指标 有 平 
均 查 准 率 均 值 (Mean Average Precision，MAP) ， 平 均 排名 倒数 (Mean Reciprocal Rank, 
MRR) ， 等 等 。 有 趣 的 是 ， 对 于 一 些 指标 , “平均 ”一 词 并 不 明确 地 包含 在 该 指标 的 名 字 当 
中 。 比 如 ， 前 大 个 文档 的 平均 查 准 率 (mean precision at k) 通常 简写 为 P@k， 而 不 
是 MP@k，。 
最 近 ， 有 人 认为 计算 算术 平均 值 并 不 是 将 多 个 主题 的 有 效 性 评价 值 聚 合 在 一 起 的 最 佳 方 
st (Robertson，2006)。 举 个 例子 说 明 ， 考 虑 两 个 主题 T 和 T: ， 每 个 主题 都 仅 有 一 个 文 
档 与 其 相关 。 进 一 步 考虑 以 下 两 个 结果 列表 
Res(T1) = (一 ,十 ,一 一 一 Res(T2) 一 (一 十 一 一 一 (12-6) 
其 中 ,“ 十 ”表示 一 个 相关 文档 ，“ 一 ”表示 一 个 不 相关 文档 。 两 个 结果 列表 的 平均 查 准 率 
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都 为 0.5。 此 时 ， 两 个 主题 的 MAP 也 均 是 0.5。 现 在 ， 再 考虑 另 一 种 情况 : 
Res (Ti) = (+,—,—, —, —,"*"), Res (T2) = (一 ,一 一 一 一 (12-7) 
Ep, Res TOR APK 1, Res’(T,)& AP HO. MAP 在 这 两 种 情况 下 (公式 (12-6) 和 
公式 (12-7)) 是 一 样 的， 但 对 用 户 来 说 ， 公 式 12-6) 的 总 体 效果 要 比 公式 (12-7) 的 总 体 
效果 好 。 i . 
由 这 个 观察 引出 了 几何 平均 查 准 率 均 值 (Geometric Mean Average Precision, GMAP) 
的 定义 (Robertson, 2006); 


EMAPEAP spn toe (12-8) 
¿=1 


EP. 是 一 个 常量 ， 它 的 作用 是 消除 由 于 其 中 一 个 AP; 为 0 所 带 来 的 影响 。 设 es 一 0.01， 对 
于 公式 (12-6) 和 公式 〈12-7) 的 例子 有 
GMAP(0.5,0.5) = 0.5, GMAP(1.0,0.0) = V1.01- 0.01 œ 0.10 (12-9) 
这 个 结果 与 我 们 的 直观 感 党 是 一 致 的 ， 即 从 总 体 效 果 来 看 ，Fes (Ti ) 和 Res (TORET 
Res'(Ti) 和 Res'’(T2). 
因为 一 个 AP 值 集合 的 几何 平均 与 AP 值 取 对 数 后 的 算术 平均 是 等 价 的 ， 所 以 也 有 人 认 
为 这 个 问题 并 不 是 由 于 采用 了 算术 平均 引起 的 ， 而 是 AP 这 一 指标 本 身 所 引起 的 。 


12.16 ”用 户 满 意 度 


纵 观 近 20 年 设计 的 评分 函数 ， 几 乎 都 是 采用 以 上 介绍 的 一 种 或 多 种 有 效 性 指标 来 进行 
评价 的 。 鉴 于 它们 在 信息 检索 评价 中 的 重要 性 ， 有 人 可 能 认为 用 户 满意 度 和 平均 查 准 率 间 的 
关系 已 经 得 到 了 彻底 的 研究 ， 并 且 已 被 大 家 非常 好 地 理解 了 。 遗 憾 的 是 ， 事 实 并 非 如 此 。 试 
图 找到 用 户 满意 度 和 各 种 有 效 性 指标 之 间 的 关系 ， 是 近期 才 出 现 的 研究 方向 。 初 步 的 研究 结 
果 表 明 ， 用 户 满意 度 和 AP 间 的 关系 并 不 密切 “Turpin 和 Scholer，2006), 但 与 如 P@10 这 
样 的 早期 查 准 率 指标 间 的 关系 非常 密切 (Kelly 等 人 ，2007)。 尽 管 如 此 ，AP 仍然 是 并 且 将 
来 也 是 在 信息 检索 评价 中 使 用 最 广泛 的 指标 。 


12.2 TREC 


2.3 节 简 单 介绍 了 用 于 有 效 性 评价 的 经 典 方法 ， 这 些 方法 被 编纂 在 TREC 中 ， 并 被 许多 
其 他 评价 方法 所 效仿 。TREC 提供 了 一 个 框架 ， 前 面 章节 介绍 的 评价 方法 就 可 应 用 到 这 个 框 
架 中 。 这 个 框架 代表 了 信息 检索 评价 的 事实 标准 ; 采取 TREC 的 框架 得 到 的 评价 结果 在 所 
有 公开 的 评价 结果 中 占 了 绝 大 多 数 ， 尤 其 是 在 特别 检索 中 。 按 照 这 种 方法 ， 设 计 评 价 实 验 的 
组 织 者 们 开发 了 一 个 主题 集 ， 然 后 将 这 个 主题 集 和 目标 文档 集 一 起 分 发 给 各 个 参与 这 个 实验 
的 小 组 。 一 般 来 说 ， 文 档 集 是 相对 均匀 的 ， 且 由 经 专业 撰写 和 编辑 的 材料 组 成 ， 如 报纸 或 期 
刊 文章 。 每 个 小 组 根据 主题 创建 查询 ， 并 在 文档 集 上 执行 这 些 查询 。 通 常 这 些 查 询 必须 自动 
地 根据 主题 创建 出 来 ， 不 需要 人 工 参 与 ， 但 在 一 些 实 验 中 ， 人 允许 人 工 对 查询 进行 创建 或 
修改 。 

常用 的 主题 集 一 般 包括 50 或 更 多 个 主题 。 在 很 多 情况 下 ， 组 织 者 在 创建 主题 时 ， 会 明 
确 地 要 求 参 与 小 组 使 用 主题 中 的 一 个 域 构 造 查询 ， 且 构造 查询 时 不 能 对 这 个 域 进 行 修改 或 只 
人 允许 少量 修改 。 在 图 1-8 所 示 的 示例 主题 中 ， 标 题 域 Claw enforcement, dogs”) 就 是 用 作 
这 一 目的 的 。 主 题 的 其 他 部 分 提供 了 更 多 其 他 的 细节 ， 以 消除 由 于 标题 简短 而 引起 的 潜在 的 
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歧义 。 在 理想 情况 下 ， 主 题 能 准确 、 完 整地 描述 它 对 相关 文档 的 要 求 。TREC 的 主题 中 很 少 
出 现 印刷 或 拼写 错误 ， 而 现实 查询 中 ， 这 种 错误 却 很 常见 。 

在 文档 集 上 执行 完 查 询 后 ， 每 个 小 组 为 每 个 主题 返回 一 个 包含 个 相关 文档 的 排名 列 
表 : TREC 中 的 实验 一 般 采 用 二 1000; 而 本 书 中 的 实验 采用 有 二 10 000。 关 于 一 个 完整 主 
题 集 的 排名 列表 集 在 TREC 的 术语 中 叫做 一 个 运行 实例 〈run) 。 根 据 实验 ， 组 织 者 可 能 允 
许 每 个 小 组 返回 多 个 运行 实例 ， 以 便于 组 织 者 测试 每 个 小 组 的 系统 的 各 个 方面 的 性 能 。 

当 接 收 到 来 自 各 个 小 组 的 一 个 或 多 个 运行 实例 后 ， 组 织 者 会 创建 一 个 用 于 评价 的 文档 池 
《pool) 。 这 个 文档 池 由 来 自 每 个 运行 实例 的 排名 靠 前 的 文档 联合 组 成 。 其 中 ， 每 个 运行 实例 
文档 池 的 深度 一 般 为 100。 评 判 者 判定 每 个 文档 时 使 用 一 个 二 元 值 ， 相关 或 不 相关 .9 这 些 判 
定 在 TREC 的 术语 中 称 为 grels， 用 于 计算 前 面 章节 中 介绍 的 查 全 率 、 查 准 率 、 平 均 查 准 率 
以 及 其 他 指标 。 在 计算 这 些 指 标 时 ， 不 在 文档 池 中 的 文档 (因为 在 任何 一 个 运行 实例 返回 的 
结果 中 ， 它 都 不 属于 排名 靠 前 的 文档 ) 认为 是 不 相关 的 。 

主题 、 判 定 以 及 文档 集 构 成 一 个 测试 集 (test collection), TREC 的 核心 目标 是 构造 一 
个 可 重用 于 后 续 实 验 的 测试 集 。 例 如 ， 如 果 提 出 了 一 种 新 的 信息 检索 技术 或 排名 公式 ， 提 出 
者 可 能 想 将 这 用 于 已 有 的 测试 集 上 ， 并 将 得 到 的 结果 与 标准 方法 得 到 的 结果 进行 比较 。 可 重 
用 测试 集 也 可 用 于 调整 检索 公式 ， 即 调整 其 参数 以 优化 其 性 能 。 如 果 一 个 测试 集 是 可 重用 
的 ， 一 般 会 假设 判定 尽 可 能 得 全 面 。 理 想 情 况 下 ， 可 以 找 出 所 有 相关 文档 。 因 此 ， 很 多 评价 
实验 积极 鼓励 人 工 运行 实例 〈 涉 及 人 工 参 与 )， 以 增加 系统 找 出 那些 已 被 标记 为 相关 的 文档 
的 数量 。 

文档 池 方 法 需要 大 量 的 判定 工作 。 对 于 50 个 主题 ， 几 十 个 小 组 和 一 个 深度 为 100 的 文 
档 池 ， 判 定 者 可 能 需要 做 成 千 上 万 个 判定 。 对 于 1999 年 TREC-8 特定 任务 ， 共 有 71 个 运行 
实例 加 入 到 文档 池 中 (Voorhees 和 Harman，1999) 。 理 论 上 ， 如 果 运 行 实例 间 没 有 重复 的 
结果 ， 这 文档 池 的 规模 可 高 达 71。50 .100 王 355 000。 幸 运 的 是 ， 运 行 实例 间 有 大 量 的 重复 
结果 ， 尤 其 是 排名 靠 前 的 文档 。 尽 管 如 此 ， 对 于 这 50 个 主题 ， 文 档 池 中 依然 包含 86,830 个 
文档 。 假 设 给 一 个 判定 者 判断 一 个 文档 的 时 间 只 有 30 秒 ， 那 完成 这 86 830 个 文档 的 判定 将 
需要 总 共 724 个 小 时 ， 这 足够 使 一 个 由 10 个 判定 者 组 成 的 团队 忙 上 两 个 星期 。 


12.3 在 评价 中 使 用 统计 


给 定 一 个 由 文档 、 主 题 、qrels 组 成 的 测试 集 ， 我 们 使 用 12. 1 节 中 的 评价 方法 在 指定 测 
试 集 上 计算 某 一 检索 方法 A 的 有 效 性 ， 并 将 它 与 其 他 的 检索 方法 B 的 有 效 性 进行 比较 。 然 
而 ， 我 们 只 能 从 这 些 评价 结果 中 知道 这 两 个 方法 在 给 定 测 试 集 上 的 对 比 结果 。 理 想 情况 下 ， 
我 们 想 知 道 对 于 所 有 由 文档 、 主 题 和 相关 性 判定 组 成 的 文档 集中 ， 这 两 种 方法 哪 种 更 好 ， 好 
g, 

统计 分 析 可 用 于 估计 一 个 评价 结果 多 好 地 预测 了 系统 的 性 能 ， 而 不 局 限 在 用 于 度量 它 的 
某 个 特定 测试 集 。 当 得 到 检索 方法 在 某 个 特定 主题 上 的 AP 值 或 在 某 个 主题 集 上 的 MAP {E 
时 ， 我 们 可 以 断言 ， 在 其 他 主题 上 也 会 得 到 类 似 的 结果 ， 因 为 就 算 离开 这 些 特定 的 评价 主 
题 ， 系 统 的 预期 目的 也 会 扩展 得 很 好 。 然 而 ， 如 果 没 有 统计 分 析 ， 就 很 难说 明 该 断言 成 立 或 
那些 指标 反映 出 系统 多 好 地 满足 了 它 的 预期 目标 。 


© 一 些 TREC 实验 的 判定 采用 三 个 等 级 ， 不 相关 、 相 关 、 高 度 相关 。 然 而 ， 为 了 评价 单个 运行 实例 ， 通 常 把 相关 和 
高 度 相 关 文 档 看 成 是 等 价 的 。 
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统计 分 析 可 用 于 估计 某 个 定量 指标 的 精确 度 〔 例 如 ，“ 方 法 A 有 多 好 ?” 或 “A 比 B 好 
多 少 ?7， 或 估计 支持 某 个 特定 假设 的 证 据 效力 〈 例 如 ,“ 广 法 A 比方 法 BEE). HEK 
验方 法 论 的 书 中 会 用 很 多 版 面 来 介绍 传统 的 假设 检验 ， 指 出 当 证 据 效 力 超过 一 个 任意 设 定 的 
阐 值 时 ， 结 果 就 是 具有 统计 显著 性 的 。 这 样 的 检验 给 出 的 信息 比 证 据 效力 的 定量 估计 给 出 的 
信息 要 少 得 多 ， 并 且 很 容易 被 曲解 。 例 如 医药 等 领域 ， 就 很 少 采 用 假设 检验 〈Gardner 和 
Altman，1986) 。 在 信息 检索 文献 中 ， 统 计 估 计 和 假设 检验 通常 不 被 提 到 或 被 误 用 。 我 们 希 
望 能 纠正 这 些 行为 。 

本 节 较 长 ,使 用 较 大 篇 幅 回顾 一 些 基 本 知识 ， 同 时 讨论 它们 在 信息 检索 评价 中 的 应 用 。 
尽管 你 可 能 已 经 熟悉 大 部 分 的 基本 知识 ， 但 我 们 采用 了 一 个 不 同 于 数学 或 应 用 统计 文献 的 观 
点 。 我 们 将 考虑 统计 在 科学 方法 中 的 作用 ， 而 不 是 考虑 统计 本 身 的 目的 或 作为 后 验 的 统计 检 
验 一 一 仅仅 就 为 满足 出 版 条 件 而 已 。 

如 果 你 已 经 忘记 了 什么 是 统计 ， 而 你 又 想 避 免 挖 据 这 些 相 关 材 料 的 麻烦 ， 你 可 以 跳 过 或 
粗 读本 节 剩 下 的 内 容 。 利 用 这 些 统计 知识 要 达到 的 “基本 目的 ”如 下 : 〈1) 为 你 的 信息 检索 
实验 建立 一 个 合适 的 基准 ; (2) 将 另 一 种 方法 或 技术 的 效果 与 这 一 基准 进行 比较 ; GC) 报告 
这 两 种 方法 的 效果 差距 ， 并 考虑 这 个 差距 对 用 户 是 否 有 重大 的 影响 ;(〈4) 报告 一 个 关于 统计 
置信 度 的 指标 值 ， 例 如 P- 值 或 置信 区 间 。 对 于 最 后 一 步 ， 通 常 选 用 配对 t- 检 验 。 


12.3.1 基础 和 术语 


在 某 种 意义 上 ， 信 息 检索 评价 中 的 有 效 性 指标 与 物理 度量 指标 十 分 相似 。 想 象 一 下 ， 本 
书 的 作者 之 一 想 确定 他 自己 的 高 度 以 便 订购 一 套 西 装 。 他 使 用 一 把 直 尺 , 测 得 5 英尺 8 英 
寸 。 为 了 准确 ， 他 再 用 卷 尺 测 了 一 次 ， 结 果 是 173 cm。 精 确 地 转换 到 通用 单位 后 ， 他 分 别 
得 到 两 个 值 ，1727.2 mm 和 1730 mm。 他 觉得 有 些 迷 惑 ， 就 用 直 尺 更 准确 地 测 了 一 次 ， 结 


果 为 5 英尺 8 与 英寸 (就 是 1736. 725 mm) ， 是 其 中 一 次 测量 出 错 了 吗 ? 作者 的 真实 身高 是 


多 少 呢 ? 答案 是 “ 没 出 错 ， 测 量 结果 都 与 预期 相符 ”， 而 且 “ 这 并 没关系 ， 因 为 不 管 怎样 ， 
他 得 到 的 会 是 同样 尺码 的 西服 ”。 统 计 方 法 就 是 帮助 我 们 回答 类 似 于 这 样 的 问题 的 。 

如 果 需 要 更 加 精确 的 答案 ， 他 也 许 会 用 计算 器 计算 这 些 测 量 结果 的 均值 ， 得 到 
1 731. 308 333 mm。 如 果 对 足够 多 的 独立 测量 结果 求 均值 ， 他 可 以 得 到 一 个 关于 他 身高 的 
精确 估计 值 ， 但 是 没有 一 个 估计 值 会 精确 到 像 上 面 一 样 ， 用 10 位 数字 来 表示 估计 值 ， 因 为 
观察 得 如 此 细致 人 微 并 不 符合 我 们 对 一 个 人 身高 的 认识 。 我 们 需要 在 早上 或 晚上 ， 穿 或 不 穿 
厚重 的 冬衣 来 测量 一 个 人 的 身高 吗 ? 身高 包括 头发 吗 ? 试图 测量 得 比 我 们 理解 中 的 身高 更 精 
确 是 完全 没有 意义 的 。 然 而 , “真实 身高 ”在 描述 我 们 估计 的 准确 程度 时 是 一 个 有 用 的 抽象 
概念 ， 即 要 解决 这 样 一 个 问题 :“ 估 计 值 与 真实 值 有 多 接近 ?” 为 此 ， 把 “真实 身高 ”定义 为 
无 限 多 个 测量 值 的 均值 ， 其 中 每 个 测量 值 间 的 差异 是 偶然 的 ， 这 一 定义 非常 有 用 。 然 后 我 们 
把 单个 测量 值 与 真实 值 的 差异 看 做 随机 误差 (random error)。 与 随机 误差 相对 的 是 系统 误 
% (systematic error) 或 偏差 (bias)， 系 统 误 差 是 有 可 能 会 发 生 的 ， 例如， 如 果 卷 信用 得 
太 多 了 ， 测 量 值 将 变 大 。 

指标 的 查 准 率 S (precision of measurement》 是 一 个 测量 不 受 随机 误差 影响 的 程度 。 效 度 











日 指标 的 查 准 率 在 统计 学 文献 中 一 般 简称 为 查 准 率 。 为 清晰 起 见 ， 在 需要 时 ， 我 们 会 使 用 全 称 以 区 分 信息 检索 中 所 
使 用 的 有 效 性 指标 。 
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(validity) 是 衡量 该 测量 本 身 对 它 所 测量 的 内 容 的 真实 反映 程度 (对 于 我 们 的 例子 ， 就 是 总 
体检 索 效 果 )。 本 节 我 们 尤其 关注 的 是 ， 信 息 检索 实验 中 得 到 的 指标 的 查 准 率 。 如 果 在 一 个 
评价 信息 检索 系统 有 效 性 的 实验 中 重复 使 用 完全 相同 的 技术 ， 但 却 使 用 不 同 的 主题 、 文 档 或 
相关 性 判定 ， 那 得 到 的 结果 将 会 有 多 相似 呢 ? 如 果 可 能 ， 是 否 能 不 重复 实验 ， 而 预 估 这 个 相 
似 程度 呢 ? 尽管 这 些 问 题 大 部 分 是 服从 统计 推论 的 ， 但 只 能 从 包括 效 度 在 内 的 一 般 探索 框架 
上 下 文 来 理解 这 些 问题 ， 而 不 是 从 统计 学 必须 的 角度 来 考虑 。 取 而 代 之 ， 我 们 可 以 利用 一 些 
科学 探索 方法 一 一 观察 、 归 纳 、 演 绎 、 实 验 来 解决 它们 。 

总 体 (population) 这 一 概念 是 任何 关于 统计 分 析 的 讨论 的 核心 ， 并 且 也 是 过 去 和 现在 
一 直 争 论 不 休 的 话题 (Lenhard，2006)。 我 们 采用 由 Ronald Fisher (Fisher, 1925) 提出 的 
无 限 假设 总 体 这 一 概念 : . 

如 果 在 和 孟 德 尔 遗传 实验 中 ， 我 们 说 在 经 过 某 种 交配 后 ， 是 白 老鼠 的 概率 为 1/2， 我 们 必 
须 把 经 过 这 些 交配 后 得 到 的 老鼠 看 做 是 一 个 无 限 的 总 体 。 总 体 的 数量 必须 是 无 限 大 的 ， 因 为 
如 果 从 一 个 有 限 的 总 体 中 抽样 ， 那 已 知 抽出 的 一 只 老鼠 是 白 老鼠 后 ， 这 一 事实 会 影响 到 以 后 
抽出 的 是 白 老 鼠 的 概率 ， 这 并 不 是 我 们 想 要 考虑 的 假设 情况 ; 另外， 概率 并 不 总 是 一 个 有 理 
数 。 尽 管 “ 总 体 是 无 限 的 ”明显 只 能 是 个 假设 情况 ， 因 为 不 但 老鼠 所 生 的 孩子 的 实际 数量 是 
有 限 的 ， 而 且 我 们 还 可 能 希望 考虑 概率 受 父母 的 年 龄 或 它们 的 营养 情况 的 影响 。 然而， 在 我 
们 的 实验 中 ， 我 们 可 以 假设 老鼠 生出 的 孩子 的 数量 是 无 限 的 ， 即 父母 的 情况 都 类 似 ， 年 龄 相 
当 且 在 相同 的 环境 下 。 白 老鼠 的 比例 在 这 个 假设 的 总 体 中 具有 实际 的 意义 ， 可 以 用 于 说 明 我 
们 的 概率 。 简 单 来 说 ， 这 个 假设 的 总 体 是 由 我 们 研究 的 条 件 而 得 到 的 概念 。 这 个 概率 与 其 他 
的 统计 参数 一 样 ， 是 那个 总 体 的 一 个 数值 特征 。 

回 到 测量 作者 身高 的 例子 ， 我们 关注 的 是 使 用 一 把 直 尺 或 卷 尺 去 度量 得 到 的 结果 。 当 前 
感 兴趣 的 这 个 总 体 就 是 一 个 相似 度量 集 〈 不 是 大 家 随意 所 想 的 ， 相 似 作 者 集 )。 对 于 信息 检 
索 评价 来 说 ， 我 们 感 兴趣 的 结果 是 一 些 有 效 性 指标 ， 如 MAP 或 P@A， 我 们 把 这 些 指标 用 
于 评价 一 个 系统 (或 比较 两 个 系统 间 的 MAP 或 P@k 的 不 同 ) ， 对 于 信息 检索 来 说 ， 总 体 就 
是 相似 指标 集 。 我 们 描述 相似 指标 集 的 方式 ， 与 描述 采用 相同 的 检索 方法 ， 但 采用 不 同 的 文 
档 、 主 题 或 相关 性 判定 得 到 的 实验 结果 的 方式 是 一 样 的 。 不 同 的 文档 、 主 题 和 相关 性 判定 本 
身 可 以 表示 不 同 的 假设 总 体 ， 主题 提交 给 系统 后 ， 我 们 希望 系统 从 文档 集中 检索 出 相关 文 
档 ， 和 相关 性 判定 集 。 

对 于 身高 这 个 例子 ,“ 真 实 有 效 性 ”表示 所 有 指标 的 均值 。 同 时 有 效 性 这 个 概念 不 必 是 
准确 的 ， 这 是 因为 我 们 不 能 准确 地 说 明 这 些 总 体 。 有 效 的 定义 可 以 是 “所 有 在 过 去 、 现 在 、 
将 来 要 提交 给 特定 信息 检索 系统 的 主题 * “所 有 在 过 去 、 现 在 、 将 来 提交 给 过 滤器 的 文档 ”; 
“ 某 个 文档 关于 某 个 过 去 、 现 在 、 将 来 的 主题 的 所 有 相关 性 判定 ”。 因为 部 分 总 体 不 存在 ,在 
评价 时 肯定 是 不 能 把 它们 都 枚 举 出 来 的 。 

相对 于 尝试 枚 举 一 个 假设 的 总 体 ， 我 们 采用 容易 获得 的 数据 和 观察 “如 ，TREC 集中 的 
主题 、 文 档 和 qrels) ， 并 把 它们 看 做 是 从 假设 总 体 中 获得 的 : “所 有 的 数据 就 像 是 我 们 采集 
回来 的 一 样 ”"。 相 对 于 我 们 感 兴趣 的 真实 (但 是 难 以 度量 的 ) 总 体 〈 真 实 总 体 被 称 做 目标 总 
体 (target population))， 这 个 假设 总 体 被 称 做 源 总 体 (source population)。 源 总 体 接近 于 
假设 目标 总 体 。 越 是 接近 目标 总 体 ， 源 总 体 得 到 的 指标 值 越 好 地 反映 了 目标 总 体 得 到 的 假设 
的 指标 值 。 衡 量 指标 的 准确 率 可 以 从 三 个 不 同 的 方面 考虑 : 度量 指标 的 查 准 率 ; 度量 指标 关 
于 由 源 总 体 定义 的 真实 值 的 效 度 ; 指标 关于 目标 总 体 的 效 度 。 我 们 把 这 两 种 效 度 分 别称 为 内 
部 效 度 (internal validity) 和 外 部 效 度 (external validity)。 外 部 效 度 也 被 称 为 可 转换 性 
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(transferability) 或 普遍 性 (generalizability) 。 

统计 推断 只 关注 查 准 率 和 内 部 效 度 ， 即 指标 多 好 地 反映 了 由 源 总 体 定义 的 真实 值 ? 外 部 
效 度 不 是 基于 统计 推断 的 ， 而 是 基于 科学 探究 的 : D 找 出 源 总 体 和 目标 总 体 间 的 特性 差异 ， 
且 这 些 差异 值 会 影响 到 外 部 效 度 ; 2) 确定 一 个 具有 这 些 特性 差异 的 新 的 源 总 体 ，3) 就 新 的 
源 总 体 评价 其 有 效 性 ; © 评价 这 些 差异 带 来 的 影响 。 例 如 ， 原 来 的 TREC 文档 集 主要 由 新 
闻 在 线 和 类 似 的 文章 组 成 ， 且 它们 的 主题 都 是 关于 当前 时 事 的 。TREC Web 专题 研究 由 于 
Web 网 页 和 Web 查询 的 使 用 而 可 能 导致 的 差异 。 现 在 的 思路 是 ， 不 去 找 能 最 好 地 表示 目标 
总 体 的 最 终 源 总 体 ， 而 是 去 找 出 能 解释 可 能 差异 的 总 体 。 如 果 度 量 结果 相似 ， 我 们 对 二 者 的 
外 部 效 度 的 置信 和 度 都 提高 了 。 如 果 度 量 结果 不 一 致 ， 那 我 们 就 需要 进一步 地 进行 科学 探 
RT. 

任何 实验 技术 都 有 假设 和 局 限 性 ， 从 而 影响 了 它 的 外 部 效 度 。 我 们 并 不 能 因为 这 些 局 限 
性 而 丢弃 某 种 技术 。 相 反 ， 我 们 应 该 找 出 这 些 局 限 性 ， 并 采用 科学 探究 的 方法 对 它们 造成 的 
影响 进行 评估 。 偏 差 一 直 存 在 的 情况 下 ， 由 这 些 实验 得 到 的 全 部 证 据 骨 在 不 断 地 增加 我 们 对 
信息 检索 有 效 性 的 理解 。 可 以 把 全 部 的 证 据 看 做 一 个 总 体 ， 并 采用 一 种 称 为 元 分 析 〈meta- 
analysis) 的 技术 从 中 得 到 统计 推断 。 当 前 应 用 元 分 析 最 好 的 领域 ， 如 医药 ， 把 所 有 关于 某 
种 治疗 方案 的 已 知 结果 都 考虑 进去 .9 

和 很 多 其 他 的 学 科 一 样 ， 评 价 外 部 效 度 在 信息 检索 评价 中 也 是 一 个 挑战 。 对 于 一 个 实验 
室 实验 ， 我 们 关注 的 要 点 是 : 可 能 无 法 获得 一 个 真实 的 测试 集 。 例 如 ，TREC 中 使 用 的 大 部 
分 文档 集中 不 包含 拉 摇 文档 (由 判定 者 判断 的 看 似 相关 却 不 需要 的 文档 ); 主题 通常 是 为 评 
价 而 构造 的 ， 而 不 是 作为 出 现在 实际 环境 中 的 信息 需求 的 例子 ， 这 些 主题 通常 经 过 标准 信息 
检索 方法 的 检查 ; 主题 的 标题 域 通常 用 作 搜索 查询 ， 很 少 出 现 拼 写 错误 。 并且 ， 即 使 可 以 获 
得 查询 的 真实 样本 ， 给 定 查 询 的 意图 也 不 总 是 那么 明显 ， 也 无 法 保证 相关 性 判断 与 用 户 的 信 
息 需 求 是 一 致 的 。 另 一 方面 ， 就 算 不 考虑 隐私 问题 ， 涉 及 在 线 系统 和 人 的 实验 从 逻辑 上 也 是 
很 难 实现 的 ， 因 为 需要 考虑 大 量 的 因素 :实验 和 用 户 行为 间 的 交互 、 难 以 确定 的 信息 需求 和 
相关 性 ， 以 及 为 了 重复 和 系统 比较 而 进行 的 差异 控制 的 难度 ， 等 等 。 最 后 的 结果 就 是 在 线 评 
价 有 它们 的 局 限 性 ， 实验 代价 昂贵 且 非 常 耗 时 ， 而 且 通 常 得 不 到 精确 的 结果 。 也 就 是 说 ， 这 
里 介绍 的 统计 查 准 率 估计 技术 可 用 于 估计 实验 室 和 在 线 度 量 指 标的 查 准 率 。 


12.3.2 RERA 


置信 区 间 (confidence interval) c= 二 [1, Wj] 是 一 个 区 间 范 围 ， 该 区 间 “ 可 能 ”包含 了 一 
个 实验 度量 值 m 的 假设 “真实 值 ” (例如 ， 使 用 某 个 指定 测试 集 计 算得 到 的 P@k 或 
MAP)。“ 可 能 ”由 置信 水 平 (confidence level) 1 一 a 进行 量化 ， 其 中 a 被 称 做 显著 性 水 平 
(significance level) 。“ 真 实 值 ”t= 二 加 [M] 是 M 的 期 望 值 ， 它 是 一 个 随机 变量 ， 描 述 了 在 
所 有 实质 上 类 似 的 实验 中 m 的 可 取 值 的 特性 ， 这 些 实验 的 不 同 之 处 仅仅 是 它们 从 目标 总 体 
中 选择 样本 的 方式 不 同 。 设 C 是 一 个 随机 变量 ， 描 述 了 由 相似 的 指标 得 到 c 的 可 取 值 的 特 
性 。 置 信 水 平 为 1 一 a 的 置信 区 间断 言 . 

PrteC]>l-a (12-10) 
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一 个 置信 区 间 可 以 看 做 由 一 个 置信 下 限 (lower confidence limit) 和 一 个 置信 上 限 (upper 
confidence limit) 组 成 的 Ll, u] 对 ， 这 个 Cl, u] 对 限制 了 区 间 的 范围 ， 或 者 可 以 把 置 
信 区 间 理 解 成 对 估计 值 的 容 限 〈 如 士 9) 。 置 信 水 平 与 置信 区 间 有 关系 ， 置 信 水 平一 般 为 95 和 ， 
这 是 必须 予以 说 明 的 。 表 12-1 复制 了 表 2-5 中 第 一 列 和 最 后 一 列 给 出 的 实验 结果 ， 同 时 对 于 
每 个 估计 值 ， 使 用 以 下 将 详细 讲解 的 经 典 方法 计算 置信 水 平 为 95 罗 时 的 置信 区 间 ， 一 并 在 表 中 
列 出 。 我 们 可 以 看 到 ， 对 于 所 有 结果 ， 置 信 区 间 的 边界 大 约 为 有 效 性 指标 值 的 士 20 和 2 。 

表 12-1 有 效 性 评价 结果 ， 选 用 的 检索 方法 (都 是 本 书 讨论 的 ) 的 置信 区 间 的 置信 水 


平 为 95%。 在 计算 区 间 时 ， 我 们 假设 主题 都 是 从 假设 总 体 中 抽样 得 到 的 ， 
同时 指标 误差 服从 正 态 ( 即 高 斯 ) 分 布 


TREC45 (1998 V2 (2 
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d 
P@10 MAP P@10 | MAP 
Rg (2.2.1) 0.264 (0.19-0.34) | 0.126 (0.09-0.16) 0.194 (0.13-0.26) 0.092 (0.06-0.12) 
邻近 度 (2.2.2) 0.396 (0.30-0.49) 0.124 (0.08-0.17) 0.560 (0.48-0.64) 0.230 (0.18-0.28) 
余 纺 (原始 TF 值 ) 0.266 (0.19-0.34) | 0.106 (0.07-0.14) 0.282 (0.20-0.36) 0.097 0.07-0.13) 
邻近 度 (TE 文 档 ) 0.342 (0.27-0.42) | 0.132 (0.10-0.17) 0.466 (0.37-0.56) 0.151 (0.11-0.19) 
BM25 (Ch. 8) 0.424 (0.34-0.51) 0.178 (0.14-0.22) 0.534 (0.46-0.61) 0.277 (0.23-0.32) 
LMD (Ch. 9) 0.450 (0.37-0.53) | 0.193 (0.15-0.24) 0.580 (0.50-0.66) 0.293 (0.25-0.34) 
DFR (Ch. 9) 0.426 (0.34-0.51) | 0.183 (0.14-0.23) 0.550 (0.47-0.63) | 0.269 (0.22-0.32) 








置信 区 间 反 映 了 用 于 度量 的 实验 技术 的 查 准 率 。 当 重复 使 用 同一 种 技术 时 ， 结 果 区 间 包 





合 真 实 值 的 期 望 概率 至 少 等 于 置信 水 平 1 一 c。 也 就 是 说 ， 置 信 区 间 中 不 包含 真实 值 的 概率 
不 大 于 xc。 因此 ， 我 们 希望 表 12-1 的 28 个 区 间 中 大 约 5% 的 区 间 ( 即 大 约 1 或 2 个 ) 不 包含 
真实 值 。 如 果 没 有 额外 的 信息 ， 我 们 是 无 法 判断 哪些 区 间 不 包含 真实 值 的 。 
对 于 一 个 给 定 的 置信 水 平 1 一 a， 一 个 能 得 到 更 小 的 置信 区 间 的 指标 会 更 精确 。 指 标的 
查 准 率 依赖 于 样本 大 小 、 估 计 的 指标 以 及 估计 时 使 用 的 方法 。 设 计 一 个 评价 信息 检索 系统 有 
效 性 的 实验 时 需要 权衡 样本 大 小 、 开 销 ， 还 需要 一 方面 兼顾 指标 的 实用 性 ， 男 一 方面 兼顾 指 
标的 查 准 率 和 效 度 。 
1. 计算 置信 区 间 
在 描述 如 何 计算 一 个 置信 区 间 前 ， 我 们 先 简要 回顾 一 下 Fisher 的 固定 交配 得 到 新 生 小 
鼠 的 实验 。 新 生 小 鼠 的 颜色 只 能 是 白色 或 黑色 ， 因 此 结果 完全 可 以 描述 为 
Pr[Color = white] = 1 — Pr[Color = black] (12-11) 
如 果 我 们 的 实验 输出 m 有 很 多 可 能 的 取 值 ， 那 就 有 必要 为 所 有 可 能 的 m 估计 PrLM=m ], 
这 种 估计 被 称 做 概率 分 布 〈probability distribution) 。 当 m 是 一 个 连续 量 时 ， 它 就 是 一 个 可 
取 任 何 值 的 无 限 数 。 这 一 分 布 可 以 用 概率 密度 函数 (probability density function) 描述 。 为 
了 计算 置信 区 间 ， 我 们 感 兴趣 的 不 是 这 个 分 布 自 身 ， 而 是 由 累积 密度 函数 (cumulative den- 
sity function) 描述 的 累积 分 布 
cdf(z)= Pr[M < a] (12-12) 
通过 使 用 对 M 的 分 布 的 估计 计算 置信 区 间 。 各 种 计算 置信 区 间 的 方法 的 区 别 是 它们 如 
何 描述 和 估计 这 个 分 布 。 
。 一 般 假设 取 值 是 自然 数 的 指标 服从 正 态 分 布 〈 也 被 称 做 高 斯 分 布 (Gaussian distri- 
bution)) ， 且 均值 为 w， 方 盖 为 到。 这 个 分 布 的 概率 密度 郴 数 是 高 斯 函数 
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j 1 _ (en)? 
Py,o2(£) = Rese 


(12-13) 
OV27 
图 12-1 画 出 了 这 一 函数 及 其 相应 的 累积 密度 函数 
Po (y)= | Pp,o? (zx) dz (12-14) 


多 的 计算 很 复杂 ， 最 好 使 用 数学 软件 完成 计算 。 传 统 的 做 法 是 ， 通 过 查询 统计 表 获 得 © 

值 。 由 于 经 常用 到 某 些 @ 值 ， 为 了 很 快 对 这 个 分 布 有 一 个 清晰 的 了 解 ， 它 们 都 是 很 容易 被 
认 出 和 记 住 的 : l 

®,,=0,0=1(—1.96) + 0.025 , ®,,-0,0=1(1.96) = 0.975 (12-15) 


高 斯 ( 正 态 ) 分 布 累积 密度 函数 





: 标准 差 l 标准 差 
图 12-1 “高 斯 分 布 的 概率 密度 函数 和 累积 概率 密度 函数 ， 且 均值 为 /=-0， 方 差 为 中 一 1 


二 项 分 布 (binomial distribution) 来 源 于 统计 一 系列 独立 测试 得 到 的 正 例 数 ， 这 些 
独立 测试 被 称 做 伯 努 利 试验 (Bernoulli trials) ， 且 对 于 每 个 试验 ， 正 例 出 现 的 概率 
g 是 一 样 的。 例如 ， 我 们 现在 观察 第 N=100 只 出 生 的 老鼠 ， 并 统计 白 老鼠 的 数量 
n, E$ N 是 试验 的 次 数 ，g 是 正 例 出 现 的 固定 概率 ， 这 两 个 数值 完整 地 描述 了 二 
项 分 布 。 给 定 N Mg, ERRE n 的 出 现 概率 就 是 


(") Taa e (12-16) 
因为 n 取 离 散 值 ， 所 以 累积 概率 是 一 个 求 和 : 
edf(y)= >, Pr[B = nl (12-17) 


其 中 ，B 是 服从 某 个 指定 分 布 的 随机 变量 〈 在 我 们 的 例子 中 ， 就 是 老鼠 出 生 的 分 布 )。 图 
12-2 画 出 了 二 项 分 布 和 累积 二 项 分 布 。 


és 二 项 分 布 累积 二 项 分 布 


0.25 
0.2 
0.15 
0.1 
0.05 





0 1 2 3 4 5 6 7 8 
正 例 数 (n) 正 例 数 (n) 


图 12-2 ”二 项 分 布 和 累积 二 项 分 布 ， 且 N=8, q=0.5 
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当 20 世纪 初 经 典 统计 法 得 以 发 展 时 ， 计 算 都 是 采用 手工 或 者 其 他 非常 简单 的 计算 工具 ， 
那 时 计算 N 的 常见 取 值 的 累积 概率 是 很 困难 的 。 由 此 发 展 了 简单 的 近似 方法 以 减轻 计算 负 
担 。 虽然 现代 计算 机 能 准确 地 计算 现实 中 可 能 出 现 的 任意 N 值 的 分 布 ， 但 这 些 方法 仍 常 被 
使 用 。 

其 中 一 种 近似 方法 值得 我 们 注意 ， 而 且 发 现 该 方法 的 应 用 不 仅仅 是 降低 计算 负担 。 给 定 
0 天 9 天 1， 当 N 一 co 时 ， 二 项 分 布 接近 于 均值 uN eg, KÉEN .9 (1 一 9) 的 正 态 分 
H. REZE, WE ww 汪 10， 正 态 分 布 可 以 看 做 是 二 项 分 布 的 一 个 合理 近似 。 也 就 是 说 ， 一 
个 合理 的 样本 大 小 是 很 重要 的 ， 同 时 ， 一 个 合理 的 正 例 和 反例 数 也 是 很 重要 的 。 

。 正 态 分 布 和 二 项 分 布 都 被 称 做 参数 分 布 ， 因 为 用 一 些 参 数 就 能 完整 地 描述 任 一 具体 
分 布 。 因 此 估计 分 布 的 问题 就 简化 为 参数 估计 的 问题 。 另 外 ， 一 个 经 验 分 布 (em- 
pirical distribution) 只 是 一 个 观察 值 的 多 重 集 ， 例 如 ， 我 们 的 身高 测量 值 H= 
{1727.2, 1730, 1736.725), Be Bre Æ BAY Bi f B= {black, white, white, 
black、white) 。 在 经 验 分 布 中 ， 任 何 值 的 概率 就 是 它 本 身 的 频率 ， 因 此 对 于 身高 ， 


我 们 有 
Pr[H = 1727.2] = Pr[H = 1730] = Pr[H = 1736.725] = 3 (12-18) 
而 对 于 老鼠 ， 我 们 有 
Pr[B = white] = = ， Pr[B = black] = < (12-19) 
如 果 这 些 值 是 有 序 的， 累积 概率 是 一 个 简单 的 求 和 ， 例 如 ， 
Pr[ < 1735]=3 (12-20) 


更 正式 的 ， 经 验 分 布 可 以 用 离散 多 重 集 GA). Bs 的 值 来 描述 ， 且 假设 每 个 元 素 
出 现 的 概率 相等 。 对 于 服从 这 个 分 布 的 随机 变量 X, RATA 


PrIX = 2]= Westra (12-21) 
累积 概率 是 
Pr[X <a] -下 (12-22) 
经 验 分 布 的 均值 和 方差 由 以 下 公式 给 出 
1 . 
Ws= 2i (12-23) 
Isl YEs 
和 
03= 再 ‘SG = ps)? (12-24) 


度量 一 个 自然 现象 (如 ， 人 的 身高 ) 而 产生 的 经 验 分 布 常常 与 具有 相同 参数 的 正 态 分 布 
相似 。 

2. 从 分 布 到 置信 区 间 

假设 已 知 分 布 的 均值 xw 是 确定 的 ， 计 算 置 信 区 间 这 个 问题 是 没有 实际 意义 的 : 上 一 pv 
因此 c= [uns uu] 的 置信 和 度 是 100% 。 为 了 更 好 地 说 明 ， 假 设 该 分 布 除了 ww 以 外 ， 所 有 
的 信息 都 是 已 知 的。 定义 E 为 一 个 描述 指标 误差 的 随机 变量 ， 且 使 得 M 二 t 十 百 。 除 了 均值 
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KE 一 0， 瑟 的 分 布 与 M 的 分 布 相 同 。 我 们 首先 考虑 如 何 构 造 置 信 区 间 ， 假 设 除 了 t+， 分 布 是 
已 知 的 ， 接 下 来 就 是 如 何 估 计 分 布 。 
对 于 任意 a, b20, W44 
Pr[E > a] + Pr[E < —b]<a (12-25) 
c=[m—a, m+b]|BERACEN 1—a 的 置信 区 间 。 为 了 证 明 这 个 构造 满足 这 个 定义 ， 观 
察 可 知 ， 实 验 度量 值 m 是 M 的 一 个 例子 ， 所 以 C 二 [LM 一 a，M 十 b]。 重 新 整理 上 述 不 等 
式 ， 我 们 有 


Pr 上 ti 十 吾 >+t 十 加 十 Pr 十 五 < 上 一 中 未 ea (12-26) 
Pr[M >t+a]+Pr[M <t—bl<a (12-27) 
Prit < M — a] + Prit > M +b] <a (12-28) 


一 般 选 择 a Mb 使 得 wa 王 5， 得 到 一 个 关于 m 对 称 的 区 间 。 在 某 些 情况 下 ， 可 能 会 把 u Ro 
设 成 一 个 已 知 的 极限 值 ， 如 0 或 ce ， 得 到 一 个 单 侧 Conesided) 区 间或 单 尾 (singletailed) 
KHE. 

给 定 分 布 的 估计 ， 计 算 置 信 区 间 就 很 简单 了 。 对 于 一 个 对 称 的 区 间 ， 会 假设 分 布 是 
对 称 的 ， 我 们 发 现 a=b 时 使 得 


PrE < -< (12-29) 
对 于 一 个 不 对 称 的 分 布 ， 半 对 称 区 间 通 过 找 出 满足 下 式 的 a 和 ?” 得 到 
Pr[E < —b] < 5 Pr[—-E < —a]< S (12-30) 


对 于 正 态 分 布 ， 这 些 值 直接 通过 首 累 积 密度 函数 O'S, MTC MARA. AA 
通过 使 用 二 分 查找 找 出 合适 的 值 。 

3. 估计 分 布 

绝 大 部 分 的 信息 检索 结果 报告 只 考虑 了 主题 在 各 种 指标 上 的 结果 ， 而 假设 文档 和 相关 性 
判断 不 变 。 这 个 假设 一 一 主题 的 选择 代表 了 可 能 性 的 唯一 来 源 一 一 使 经 典 的 查 准 率 估 计 方 法 
可 用 于 这 些 问题 。 更 复杂 的 估计 方法 需要 考虑 文档 或 相关 性 判断 中 的 可 能 性 差异 。 信 息 检 索 
中 关于 这 些 方面 的 方法 已 经 被 提出 了 (Savoy，1997; Cormack # Lynam, 2006; Voorhe- 
es，2000)， 但 不 常 使 用 。 

我 们 这 里 研究 的 估计 技术 假设 在 某 个 指标 中 使 用 的 文档 、 主 题 或 相关 性 判断 都 是 独立 且 
随机 地 从 一 个 假设 是 无 限 的 总 体 中 选择 出 来 的 ， 并 且 总 体 由 相似 的 文档 、 主 题 或 相关 性 判断 
组 成 。 为 了 便于 说 明 ， 我 们 假设 各 个 指标 所 使 用 的 总 体 中 只 有 一 类 文档、 主题 或 相关 性 判 
断 ) 是 不 同 的 ， 而 其 他 的 均 相 同 。 我 们 将 每 个 元 素 看 做 一 个 独立 的 个 体 ( 标 识 为 D, WE 
某 个 指标 中 使 用 的 个 体 集 看 做 样本 s， 且 简单 地 把 全 部 个 体 视 为 总 体 P. 

在 上 述 假 设 下 ， 可 以 把 指标 m 描述 成 关于 样本 s 的 函数 六 

m= f(s) (12-31) 
可 以 把 一 个 来 自 于 所 有 可 能 样本 集 的 样本 看 做 一 个 服从 均匀 分 布 的 随机 变量 S， 同 时 把 
M==f(S) 看 做 一 个 独立 变量 。 在 这 里 ， 我 们 不 对 了 作 任何 假设 ， 它 仅仅 是 数学 意义 上 的 一 
个 函数 : 它 的 取 值 仪 依赖 于 样本 。 

4. 经 典 估计 

经 典 方法 假设 f 是 某 些 初 等 函数 9 的 均值 ， 且 这 些 初 等 函数 是 关于 每 个 个 体 的 函 
数 ， 即 9 
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19)= 亲 DDO (12-32) 


ies 
例如 ， 如 果 我 们 把 主题 看 做 是 个 体 ， 通 过 令 f 一 MAP 和 9 一 4AP， 这 一 假设 得 以 满足 。 当 不 
能 满足 经 典 假设 时 ， 使 用 一 个 双 射 传递 函数 〈transfer function) t， 可 以 把 了 转化 成 合适 的 
三 和 9 函数 对 : 

fy) =tF@)), — g'(z) = t(g(2)) (12-33) 
例如 ，GMAP 是 样本 AP 值 的 几何 平均 值 ， 而 不 是 算术 平均 值 。 这 个 算法 是 一 个 合适 的 传 
递 函 数 ， 因 此 f’=log (MAP) 和 g’=log (AP) HERI. FARZ, HM log 和 logit， 通 
常用 于 各 种 值 上 ， 如 取 值 范围 为 [0，1] 的 AP 值 。 另 一 种 做 法 就 是 使 用 二 项 分 布 〈 见 
12.3.64). 

如 果 /满足 这 个 假设 ， 那 么 总 体 均值 BLg PRENTE t=ELM]=ELAS)]= 
ELg《P)]。 假设 总 体 分 布 gCP) 的 总 体 方差 是 om. WERE og 通常 简称 为 “ 标 
准 差 ”。 

从 样本 s 得 到 经 验 分 布 {g(i) :1iEs}， 由 这 个 经 验 分 布 我 们 估计 CA) MER. BR 
而 将 这 个 估计 用 于 计算 标准 误差 (standard error) cg， 由 此 得 到 置信 区 间 。 一 个 简单 的 方 
ERE BERT E 总 体 方差 =o 的 估计 。 那 么 误差 的 方差 就 是 ob =ou = 


Pair OL 。 给 定 这 个 方差 的 估计 值 ， 那 就 可 以 使 用 送 正 春分 布 计算 置信 区 间 。 


这 个 简单 的 方法 涉及 两 个 近似 误差 ， 对 于 小 样本 空间 ， 这 两 个 误差 就 比较 明显 了 。 首 
先 ， 抽 样 方差 并 不 是 总 体 方差 的 最 好 估计 ， 可 以 通过 样本 大 小 1s1 二 1 为 这 个 极端 的 例子 来 
说 明 。 经 验 分 布 s 的 方差 是 o? 二 0， 这 肯定 不 是 一 个 好 的 估计 值 。 行 话 “ 样 本 空间 大 小 为 1” 
等 价 于 “ 查 准 率 未 知 的 指标 ”。 HTAR s> 依然 存在 问题 ， 可 以 用 |s1 王 2 这 一 


情况 来 说 明 。 在 这 种 情况 下 ， 不 难 证 明 cs Foxe)» 概括 来 说 ， 我 们 得 到 了 更 好 的 估计 ， 与 
介绍 的 统计 文本 类 似 : 


(12-34) 


注意 ， 这 条 公式 与 那 条 公式 的 不 同 之 处 ，o? 中 分 母 是 v= 二 18| 一 1， 而 这 里 是 |s|， 其 中 v 
表示 自由 度 (degrees of freedom). 

第 二 种 近似 误差 是 来 源 于 度量 史 产生 的 不 确定 性 。 上 述 公 式 假 设 o 是 “真实 ”方差 ， 
这 里 真实 就 是 前 面 所 述 的 概念 。 如 果 我 们 使 用 任何 指定 值 以 及 相应 的 正 态 分 布 Do. ots A 
么 置信 区 间 会 反映 该 分 布 关 于 é 的 误差 。 对 于 N=|s|>30 的 情况 ， 可 能 误差 不 显著 , 但 
对 于 N<30 的 情况 ， 误 差 是 显著 的 。 由 William Sealy Gosset 提出 的 志 分 布 〈t-distribu- 
tion) 弥补 了 这 一 缺陷 。Gosset 在 发 表 这 篇 论文 时 ， 采 用 了 化 名 为 The Student， 因 为 他 在 
Guinness brewing 公司 工作 ， 而 他 的 这 一 发 现 被 认为 是 商业 秘密 。Student 的 t- 分 布 
(图 12-3) 是 所 有 的 D l 权重 的 均值 ， 且 每 个 的 权重 由 自由 度 为 v 的 of 的 概率 分 布 确定 。 
也 就 是 说 ，t- 评 分 是 一 个 “真实 ”分 布 的 估计 ， 而 且 就 是 我 们 所 说 的 真实 。 回 想 采 样 空间 大 
小 为 N=v+1, 

计算 置信 区 间 的 程序 与 那些 简单 方法 是 一 样 的 ， 除 了 在 累积 t- 分 布 中 采用 了 v 一 N 一 1 
RD, REAR OM, t 的 计算 工作 也 最 好 交 给 数学 软件 完成 。 除 非特 别 说 明 ， 假 设 我 
们 所 给 出 的 结果 和 统计 软件 包 都 是 使 用 这 种 经 典 的 估计 方法 的 。 对 于 N 委 30 的 情况 ， 应 该 
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使 用 t+- 分布; 对 于 N>30 的 情况 ,使 用 很 好 。 
Student 的 大 分 布 , 累积 密度 函数 





1 2 3 





0 
标准 差 


"图 12-3 Student 的 t- 分 布 的 概率 密度 也 数 和 累积 密度 函数 ， 自 由 度 分 别 为 v= 二 2，vY 二 
8 和 Vv 二 co (自由 度 为 y 二 oo 的 t- 分 布 等 价 于 高 斯 分 布 ) 

5, bootstrapping 

bootstrap (Efron 和 Tibshirani, 1993) 是 一 种 通过 采样 样本 s 来 模拟 经 验 分 布 模型 
(CS) 的 方法 。 因 为 “采样 样本 ” 听 起 来 有 点 挝 口 ， 那 我 们 就 把 这 个 过 程 称 为 重 采 样 (resa- 
mpling) 。 尽 管 bootstrap 可 以 得 到 与 经 典 方法 类 似 的 结果 ， 但 是 它 不 受 关于 了 或 总 体 的 假设 
的 限制 ， 因 此 它 可 应 用 于 无 法 使 用 经 典 方法 的 情况 中 。 

重 采 样 的 过 程 很 简单 ， 我 们 用 样本 s 替代 源 总 体 。 然 后 构造 一 个 与 s 独立 同 分 布 的 多 
BRR=(7;|1<j<k}, 且 每 个 集合 的 大 小 都 与 sC(17;j| 二 |s|1) 一 样 。 独 立 条 件 隐 含 着 来 自 
s 的 一 些 样本 可 能 在 某 些 7; 中 重复 出 现 ， 然 而 某 些 样 本 可 能 没有 出 现 。 也 就 是 说 ，7; 中 的 
个 体 由 抽取 自 s 中 的 所 替代 。 假 设 重 复 样本 替代 了 假设 无 限 的 总 体 中 的 其 他 样本 ， 且 在 计算 
了 时 是 一 样 的。 例如 ， 在 统计 白 老 鼠 和 黑 老 鼠 时 ， 是 统计 某 只 黑 老 鼠 10 次 ， 还 是 统计 10 只 
不 同 的 黑 老 鼠 一 次 是 没有 区 别 的 。 

一 旦 R 构造 好 ， 可 以 通过 以 下 两 种 方法 中 的 一 种 从 经 验 分 布 f(R) 中 计算 置信 区 间 ， 

D 通过 估计 om 二 oxcs) Yorn HEALED BREDA D. 

2) 通过 计算 大 量 的 辅助 样本 〈 | R | D100) 并 直接 使 用 累积 经 验 分 布 Pref 
wv jsPrl f(R<2])), 


12.3.3 ”比较 评价 


让 我 们 回 到 原来 的 主要 目标 : 评价 信息 检索 方法 有 效 性 并 使 用 统计 推断 扩大 所 得 结果 的 
运用 。 实 际 中 ， 我 们 通常 对 单独 评价 一 个 系统 的 有 效 性 这 一 做 法 并 不 感 兴趣 ， 我 们 更 感 兴趣 
的 是 将 这 些 结果 与 其 他 系统 的 结果 进行 比较 。 表 12-1 给 出 的 结果 和 和 置信 区间 让 我 们 对 列表 
中 的 各 种 方法 的 相对 性 能 有 了 一 个 总 体 印 象 。 然 而 ， 除 了 表 中 最 后 一 行 的 Cosine (raw TF) 
(2.2.1 节 ) 的 性 能 要 明显 好 于 其 他 三 种 方法 ， 我 们 不 能 从 这 些 结果 肯定 地 推断 出 哪个 方法 
比 其 他 的 方法 更 好 。 

设 ma 为 对 系统 A 的 有 效 性 评价 ，ms 为 对 系统 B 的 有 效 性 评价 。 已 知 ms, 和 ms 是 
在 类 似 的 条 件 下 进行 评价 的 ， 如 果 m4 宝 ms， 那 么 我 们 可 以 认为 系统 A LAR BEAR. 
但 我 们 不 能 知道 以 下 这 些 方 面 : 

。 系统 A 比 系统 B 有 效 多 少 ? 

。 这 一 差异 是 实质 性 的 吗 ? 
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。 证 明 这 一 差异 是 实质 性 的 证 据 有 多 强 ? 

指标 的 差 ma-s =m — ms 可 用 于 解决 第 一 个 问题 ， 而 对 于 第 二 个 问题 ， 根 据 预 期 的 
目标 ， 可 以 考虑 需要 多 大 的 差 值 来 区 分 A 和 也 来 解决 。 例 如 ， 当 比较 两 个 人 的 身高 时 ， 很 
难 想象 身高 差 值 小 于 Imm 的 情况 能 说 明 什 么 问题 ， 因 此 我 们 会 把 任何 类 似 这 样 的 差 值 认为 
是 不 重要 的 。 如 果 度 量 得 足够 和 仔细， 也 许可 以 判断 这 两 人 的 身高 差 不 足 1 mm， 但 在 大 多 数 
情况 下 都 不 能 说 “A 比 B 高 "。 第 三 个 问题 一 一 考虑 证 据 的 强度 
信 区 间 来 解决 。 如 果 置 信 区 间 只 包含 了 实质 性 差 值 ， 我 们 可 以 认为 A 确实 比 B 好 的 置信 和 度 
为 1 一 a。 如 果 该 区 间 仅 包含 了 非 实质 性 差 值 ， 我 们 可 以 认为 A 与 B 的 差别 不 是 实质 性 的 署 
AREA 1 一 a。 如 果 该 区 间 包 含 实质 性 差 值 和 非 实质 性 差 值 ， 那 它们 的 比例 就 反映 出 相应 概 
率 的 平衡 度 。 

表 12-2 根据 表 12-1 的 内 容 给 出 了 各 个 系统 的 对 比 结 果 ， 且 表 12-2 中 的 内 容 根据 TREC 
主题 351 一 400 的 MAP 值 排名 。 表 中 给 出 了 两 个 连续 排名 系统 间 的 差 值 ， 带 置信 区 间 和 
p- 值 ， 其 中 p- 值 是 使 用 以 下 讨论 的 经 典 方 法 估计 得 到 的 。 





表 12-2 WAS BRA MAP 结果 两 两 进行 对 比 ， 且 置信 区 间 的 置信 水 平 是 
95% ， 同 时 p- 值 表示 各 种 方法 间 的 差 值 的 显著 性 水 平 







TREC45 (1998) 




























方法 B 
MAPA-a (95% ci ) P- 值 
LMD DFR 0.010 (-0.002 - 0.021) 
DFR BM25 0.005 (-0.004 - 0.013) 0.29 










Cosine (TF docs) 0.046 (0.018 - 0.002 















Cosine 0.006 (-0.021 - 0.033) 
0.002 (-0.036 - 0. 


0.018 (-0.021 - 0. 


0.66 
Proximity 
Cosine (raw TF) 


1. 显著 性 

证 据 的 强度 有 时 也 称 为 统计 显著 性 (statistical significance) ， 或 更 常见 是 显著 性 (sig- 
nificance) 。“ 显 著 性 差 值 ”意思 是 置信 水 平 为 1 一 c 的 置信 区 间 不 包含 0; 即 有 很 强 的 证 据 表 
明 它 们 之 间 存 在 差别 ， 不 管 这 差别 是 否 是 实质 性 的 。 如 果 没 有 对 差 值 或 实质 性 的 估计 ， 从 显 
著 性 得 到 的 有 用 信息 就 微乎其微 了 。 显 著 性 并 不 意味 着 实质 性 : 一 个 “显著 性 ”指标 可 能 是 
一 个 强 的 非 实 质 性 证 据 ， 或 者 是 一 个 强 的 实质 性 证 据 ， 或 都 不 是 。 

2. P- 值 

另 一 种 报告 一 个 带 固定 显著 性 水 平 a (一 般 是 0.05) 的 置信 水 平 的 方法 是 报告 一 个 显著 
性 估计 或 p- 值 (p-value)。 给 定 一 个 指标 p 是 使 得 结果 在 显著 性 水 平 a 下 是 显著 的 最 小 的 。 
换 名 话说， 这 是 最 大 的 不 包括 0 的 置信 区 间 可 取 的 a 值 。 与 指标 的 差 ms 一 ms 一 起 使 用 ， 
Pp- 值 的 估计 查 准 率 差不多 与 置信 区 间 一 样 。 置 信 区 间 保 持 a 不 变 并 计算 区 间 的 大 小 ; HEA 
一 个 特定 区 间 计 算 a， 该 特定 区 间 包 括 m4 一 ms 且 有 一 区 间 边 界 为 0。 使 用 相同 的 累积 概率 
估计 计算 置信 区 间 和 p- 值 。 同 时 报告 这 两 个 估计 并 没有 坏处 ， 因 为 它们 从 不 同 的 角度 解释 
了 同样 地 查 准 率 估计 。 由 于 上 述 原 因 (将 在 下 节 展 开 )， 永 远 不 要 报告 一 个 不 带 ma 一 ms 
这 一 量化 估计 的 p- 值 。 

尽管 r 值 一般 用 二 度量 差别 ， 但 也 可 以 为 任何 指标 m 计算 np。 一 个 双 侧 的 p- 值 表示 关 
于 任 一 包含 m 的 对 称 或 半 对 称 置信 区 间 c= (0, x] 或 c= 二 La, 0) 的 显著 性 水 平 。 对 于 
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对 称 区 间 ， 我 们 有 2 二 2m。 给 定 从 一 个 普通 的 总 体 中 独立 地 选 出 的 A AB, 那么 差 值 
MA- 必须 得 到 一 个 对 称 区 间 。 

单 侧 p- 值 假设 t=0〈 即 ， 它 假设 度量 效果 的 “真实 ” 值 大 于 0) 且 选 择 一 个 a c= 
CO, co}, 一般 来 说 (假设 服从 对 称 或 半 对 称 分 布 )， 对 于 相同 的 实验 ， 双 侧 p 值 正好 是 单 
M p- 值 的 两 倍 。 知 道 p- 值 是 单 侧 还 是 双 侧 是 很 重要 的 ， 同 时 ， 单 侧 p- 值 仅 当 满 足 在 评价 前 
已 明确 声明 t20 这 一 假设 时 才能 使 用 ， 这 点 也 是 很 重要 的 。 一 旦 知道 度量 结果 m, BAY 
造 这 一 假设 就 太 晚 了 。 特 别 是 ， 如 果 随 机 从 一 个 普通 总 体 中 选 出 A 和 B， 那 么 使 用 单 侧 p- 值 
去 估计 ma-_s 的 显著 性 永远 都 不 是 一 种 合适 的 做 法 。 

除了 这 些 问 题 ， 单 侧 p- 值 对 评价 实质 性 还 是 有 用 的 。 考 虑 以 下 情况 ， 我们 希望 判定 是 
否 ts-8 之 6， 其 中 6 是 我 们 认为 是 实际 上 的 最 小 数量 。 关 于 tt 一 t4-s 一 6 的 单 侧 p- 值 使 我 们 
能 判断 A 实质 上 比 B 好 这 一 证 据 是 否 显著 。 

这 里 介绍 的 方法 在 某 些 领域 中 已 经 得 到 大 家 的 认可 ， 如 医学 。 度 量 差 值 称 为 效果 量 
(effect size)， 实 质 性 也 称 为 实质 显著 性 (substantive significance) 或 临床 显著 性 (clinical 
significance) 。 在 医学 中 ， 结 果 不 再 是 可 供 发 表 的 ， 除 了 假设 、 预 测 结果 、 用 于 测试 结果 的 
指标 和 方法 要 在 做 实验 前 提交 到 一 个 公共 注册 处 (De Angelis 等 人 ，2004)。 这 个 标准 帮助 
保证 假设 和 用 于 测试 这 些 假设 的 方法 符合 实际 且 经 得 起 检查 。 这 些 收集 回来 的 证 据 记 录 在 公 
共 注 册 处 ， 随 着 实验 的 增多 ， 它 们 的 可 信和 度 也 不 断 增 大 。 


12.3.4 被 认为 有 害 的 假设 检验 


正如 前 一 节 所 述 ， 对 比 起 仅 是 估计 系统 差异 是 否 “ 以 显著 性 水 平 a 是 显著 的 (对 于 任意 
给 定 的 a)” 而 言 ， 系 统 之 间 差 异 的 度量 以 及 对 该 度量 查 准 率 的 估计 〈 例 如 : 置信 和 度 区 间 的 
形式 ) 能 提供 更 多 的 信息 。 如 此 使 用 估计 的 做 法 被 称 做 假设 检验 Chypothesis test), FTA 
该 避免 假设 检验 ， 且 在 如 医药 这 样 的 领域 中 已 不 再 接受 这 种 做 法 了 。 

假设 检验 起 源 于 对 大 约 1 个 世纪 前 Ronald Fisher 和 Karl Pearson 间 的 一 场 哲学 辩论 的 
误解 ， 他 们 是 现代 统计 学 的 先驱 。 这 场 辩 论 的 基本 思想 是 合理 的 ， 在 做 任何 评价 前 ， 你 应 该 
确定 你 需要 的 是 什么 。 简 言 之 ， 做 出 你 的 决定 。 更 正式 地 来 说 ，Karl Popper 这 一 有 影响 力 
的 哲学 科学 家 信奉 的 科学 方法 是 ， 要求 你 构造 一 个 证 伪 研 究 假设 (research hypothesis)， 然 
后 ， 如 果 假 设 是 非 真 的 ， 使 用 这 个 研究 假设 去 预测 一 个 不 可 能 事件 。 如 果 对 事件 的 预测 正 
确 ， 那 在 研究 假设 中 置信 和 度 增 加 。 但 事件 通常 可 能 因为 某 些 其 他 原因 发 生 ， 而 不 是 因为 假设 
是 正确 的 ; a 是 事件 随机 发 生 的 概率 的 估计 上 界 。 | 

研究 假设 通常 也 被 称 为 对 立 假设 (alternative hypothesis) ， 用 符号 Ha 表示 。 对 立 假 设 
与 零 假设 (null hypothesis) 对 立 ， 零 假设 用 符号 H 表示 ， 它 假设 预测 事件 e MIRE. 
一 个 显著 性 结果 断言 

Prlel Ho] < a (12-35) 

假设 检验 被 大 量 滥 用 的 原因 有 以 下 几 点 : 

D 空 假 设 假定 tats CBN ta_s 天 0)。 差 值 ta-s 一 般 是 一 个 实数 ， 且 服从 一 个 连续 分 
Ti, AE Pr[ ts 二 ts|A 关 Bj]A0。 也 就 是 说 ，H。 的 定义 是 错 的 。 你 所 需 做 的 就 是 做 一 个 实 
验 去 证 明 ， 其 中 所 采用 的 评价 指标 要 有 足够 的 查 准 率 。 

2) 相对 好 一 点 的 对 立 假设 是 如 之 如 ， 这 至 少 给 空 假设 =t St: 留 了 一 线 机 会 。 首 
先 评价 ma 和 ms， 然 后 基于 观察 m> ms 构造 假设 ， 最 后 基于 单 侧 检验 断言 显著 性 ， 这 
种 做 法 太 普 遍 了 。 这 种 断言 是 误导 人 的 ， 因 为 实际 上 它 检验 复合 假设 ma M V MaMe, 
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这 等 价 于 我 们 的 空 假设 ms 了 关 ms，a 被 低估 了 2 倍 了 。 这 并 不 是 说 单 侧 检验 的 不 正确 可 以 通过 
扩大 a 两 倍 就 能 纠正 : 没有 先 验 假设 ta>ts BMRA A, RR. — 
个 不 对 的 科学 结果 并 不 能 通过 任何 简单 的 调整 就 能 修正 好 。 
3) 根据 固定 的 显著 性 国 值 a 判断 “显著 的 ”或 “不 显著 的 ”， 就 算 证 据 是 非常 极端 的 ， 
在 “不 是 显著 的 ”这 一 情况 下 也 不 能 表明 证 据 的 权重 。 也 就 是 说 ， 只 要 是 证 据 就 行 ， 不 管 是 
弱 证 据 ， 还 是 支持 或 证 伪 对 立 假 设 的 证 据 。 
4) 隐情 是 : 仅 一 个 分 类 判断 (“显著 的 ”或 “不 是 显著 的 ”) 是 无 法 将 其 查 准 率 估计 推 
导出 的 各 种 信息 联系 在 一 起 的 ， 因 此 容易 受 很 多 似是而非 的 理解 的 影响 就 很 正常 了 : 
。 断定 一 个 显著 的 结果 证 明了 对 立 假设 是 不 正确 的 。 
。 断定 一 个 显著 的 结果 证 明了 对 立 假设 为 真 的 概率 之 1 一 a 是 不 正确 的 。 
。 岂 定 一 个 显著 的 结果 证 明了 空 假设 为 假 的 概率 之 1 一 a 是 不 正确 的 。 
。 断定 一 个 不 显著 的 结果 是 对 立 假设 的 对 立 证 据 是 不 正确 的 。 
。 斯 定 一 个 不 显著 的 结果 不 会 给 对 立 假设 提供 任何 正面 证 据 是 不 正确 的 。 
8 给 一 个 对 立 假设 做 总 体 评 价 时 忽略 不 显著 的 结果 是 不 正确 的 。 
把 显著 性 作为 效应 量 的 估计 是 不 正确 的 。 
把 显著 性 作为 结果 的 实质 性 估计 是 不 正确 的 。 
正确 使 用 对 立 假设 要 避免 对 全 部 显著 性 描述 作 明 确 判 断 。 度 量 差别 的 指标 ， 加 上 一 个 置 
信 区 间或 显著 性 的 量化 估计 〈p- 值 );， 肯 定 可 以 提供 更 多 的 信息 。 遗 憾 的 是 ， 大 部 分 公布 的 
信息 检索 研究 都 报告 了 假设 检验 的 结果 ， 但 是 却 没有 报告 p- 值 或 置信 区 间 。 当 我 们 尝试 理 
解 这 些 结果 时 ， 需 要 修正 一 些 信 息 : 
。 寻找 差 值 幅度 的 估计 ， 如 果 为 真 ， 判 断 这 个 差 值 是 否 是 显著 的 。 如 果 可 以 得 到 各 个 
指标 的 值 ， 那 差 值 估计 就 可 以 简单 地 通过 求 这 些 指 标的 差 值 获得 。 
© 和 确定 从 相同 的 学 习 或 实验 中 丢弃 的 不 显著 的 结果 的 数量 u. KH Bonferroni 校正 
(Bonferroni correction) 使 得 p 二 Cw 十 1)*a。 这 个 校正 假设 五 中 的 任何 一 个 和 % 十 1 结 
果 都 为 真 ， 记 这 假设 为 昌 。， 那 就 表示 没有 一 个 结果 为 假 。 假 设 Ho WA, BATHA 
为 每 个 结果 “是 显著 的 ”的 概率 是 a。 所 以 当 a 取 值 较 小 时 ， 某 些 “ 是 显著 的 ”的 结 
果 的 组 合 概率 可 能 高 达 
1—(1—a)*t!=(u+1)-a (12-36) 
A, XF HL 的 证 据 的 组 合 权 重 是 p<(x 十 1)*“a。 如 果 很 多 结果 是 显著 的 ， 或 结果 是 相关 
的 〈 就 如 相关 评价 或 排名 结果 间 的 两 两 差别 ) ， 更 复杂 的 方法 ， 如 Bonferroni-Holm 校正 
(Holm，.1979) ， 可 能 会 得 到 一 个 更 严格 的 估计 。 


12.3.5 配对 和 未 配对 差 值 


度量 ma-s 的 一 种 简单 方法 是 分 别 计算 ma 和 mp， 然后 计算 Mms =Ma Msg, Bih 

it ma_s 的 精确 度 ， 可 以 先 分 别 对 ms 和 ms 作 参 数 估计 ， 然 后 对 它们 的 误差 分 布 的 方差 
求 和 : 

Oban = ok + Fp (12-37) 

双 侧 p- 值 的 粗略 估计 可 以 通过 评价 指标 ， 以 及 它们 对 应 置信 水 平 为 1 一 a 的 置信 区 间 ma, 

Cay Men 和 cs 获得。 如 果 maEcs 或 masEca， 我 们 就 可 知道 poo, WR ca 站 ca 一 0， 

我 们 就 可 知道 p<a, He ca 和 cs， 我 么 可 以 根据 它们 的 大 小 分 别 估计 它们 的 标准 差 cg 
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和 um ， 有 效 地 逆转 了 它们 间 的 计算 。 根 据 经 验 ， 如 果 lca 门 ca| 一 lma—me| CBN, 


HARASS ma 与 ms ZAM ROS), RATTLE p<<e。 更 准确 地 说 ， 如 果 每 个 区 


间 的 大 小 除 以 /2， 那 么 当 p=e 时 ， 这 些小 区 间 会 首尾 连接 但 不 会 有 重 登 。 
配对 差 值 利用 ma 和 ”ms 都 同 是 样本 s 的 均值 这 一 标准 假设 ， 即 ， 


ma=fals) a .ga 人 (12-38) 


i€s 
ma = fp(s) = i .5 gs) (12-39) 
i€s i 
在 这 一 假设 下 ， 差 值 可 以 用 两 种 不 同 的 方法 计算 ， 得 到 估计 ma_s 和 ns-s， 对 样本 s 来 说 
它们 都 是 一 样 的 ， 但 是 它们 的 误差 EME WEAR 


ma-B= fa(s) — fa(s) = al -X ga(i) — al -X ga(i) = a -Š ga-B) (12-40) 
ies ics iEs 


ma-s = f(s) = 而 SEG) — ga) = al 2 ga-a(i) (12-41) 
i€s i€s 
其 中 ，ga_s(X) 一 ga(%) 一 gp(%)。 
在 大 部 分 情况 下 ，ga (i) 和 gs (让 间 有 很 强 的 正 相 关 ， 所 以 尽管 m%-s 二 Mae (ARE 
的 方差 是 非常 小 的 ， 
994(s) 十 Orn (9) (12-42) 
|s| —1 
对 于 相同 的 a， 配 对 差 值 法 得 到 更 紧 的 置信 区 间 ， 同 时 对 于 相同 的 差 值 ， 会 得 到 更 小 的 
P- 值 。 


12.3.6 显著 性 检验 


表 12-3 给 出 的 关于 评价 结果 的 例子 让 我 们 知道 计算 p- 值 的 配对 差 值 的 三 种 经 典 方法 ; 
t- 检 验 、 符 号 检验 和 Wilcoxon 符号 秩 检验 。 一 般 来 说 ， 计 算 关 于 某 个 差 值 的 e 值 的 方法 与 
计算 关于 某 个 差 值 的 置信 区 间 的 方法 是 一 样 的 ， 通 过 估计 累积 误差 概率 并 用 它 来 解 出 Pp。 对 
于 单 侧 显 著 性 


IgA_a(a) 
2 gA-B\Ss 2 
On Se Ko, 
E ls| 一 1 E 


p =Pr[E4-B > ma-s] (12-43) 
WATE, Eas ERAMI, FT OC EEE 
p= PrllBa_al > |ma-all (12-44) 
BD, 
p = Pr[Ea_p > |ma-B]] + Pr[Ea -g < -|ma-B]] (12-45) 


由 这 些 公 式 可 以 明显 看 出 ， 单 侧 pP- 值 表示 正 差 异 值 至 少 与 评价 值 wma-a 一 样 大 的 概率 ， 而 双 
侧 p- 值 表示 任何 差异 值 至 少 与 评价 值 mA-s 一 样 大 的 概率 。 另 外 更 明显 的 是 ， 对 于 对 称 分 
布 ， 双 侧 p- 值 是 单 侧 户 值 的 两 倍 ， 这 种 情况 对 于 两 个 相似 指标 间 的 差异 值 的 分 布 是 很 党 
见 的 。 
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表 12-3 在 TREC 主题 351~358 上 比较 BM25 和 LMD。maws 和 muw 分 别 表示 
对 应 方法 关于 8 个 主题 的 有 效 性 评价 值 (AP)。mewes-uw 表 示 各 个 主题 
间 的 差 值 ， 且 这 些 值 是 采用 上 检验 得 到 的 。w 和 ra 分 别 指 胜率 和 符号 
秩 ， 这 两 个 值 分 别 是 采用 符号 检验 和 Wilcoxon 检验 得 到 的 














主题 Id 351 352 353 354 355 356 357 358 
mpM25 0.343 0.040 0.223 0.114 0.078 0.012 0.294 0.134 
MLMD 0.409 0.045 0.311 0.105 0.149 0.019 0.311 0.105 
maeMm25_LMD 一 0.066 —0.005 —0.088 +0.009 —0.071 —0.007 —0.017 +0.029 
Wap 0 0 0 1 0 0 0 1 
np 一 6 一 1 一 8 +3 一 7 一 2 一 4 十 5 

1. ft- 检验 


计算 a_s 的 方差 的 简单 方法 (公式 02-30) 可 用 于 计算 上 述 的 p 值 。 当 无 法 获得 原 
始 数据 或 指标 值 不 是 样本 均值 的 时 候 ， 这 个 方法 就 可 用 于 把 结果 组 合 起 来 。 但 如 果 ma 和 
ms 是 样本 均值 ， 同 时 如 果 可 以 获得 经 验 分 布 的 均值 〈 正 在 表 12-3 所 示 )， 可 以 将 它们 组 合 
起 来 得 到 对 者， 的 更 好 估计 ， 从 而 得 到 更 小 的 pe- 值 。( 非 配对 ) -检验 有 效 地 计算 出 两 个 联 
合 分 布 的 均值 ， 这 是 对 ms 的 一 个 补充 。 相 比 于 上 述 的 那个 简单 方法 得 到 的 结果 ， 经 验 分 
布 得 到 的 结果 是 :大 小 是 单个 分 布 大 小 的 两 倍 〈 假 设 两 个 样本 的 大 小 都 一 样 )， 差 不 多 是 
高 ，, 的 一 半 ， 且 自由 度 是 Vs、, 的 两 倍 。 表 12-4 给 出 了 参数 估计 和 Pp- 值 的 对 比 结果 。 最 终 
结果 是 ， 通 过 使 用 t- 检 验 ， 上 述 简单 方法 从 p—0. 9 降 到 p 一 0.7。 

表 12-4 来 自 表 12-3 中 各 个 系统 间 进 行 比较 的 统计 摘要 结果 和 检验 结果 。 给 出 
单独 的 均值 和 分 布 的 估计 作为 参考 。 简 单方 法 、 配 对 tt 检验 和 非 配对 E- 
检验 ， 使 用 t- 分 布 和 不 同 的 方差 估计 来 估计 差 值 的 精确 度 。 符 号 检验 使 


用 胜率 和 二 项 分 布 。Wilcoxcn 检验 使 用 符号 秩 和 以 及 对 应 的 上 分 布 。 有 
意义 的 查 准 率 估计 以 95% 的 置信 区 间 和 六 值 〈 双 侧 ) 的 形式 给 出 











指标 误差 分 布 估计 检验 p-value 

MBM25 t (v =7, o =0.12) 0.155 (0.05, 0.26) 

MLMD t (v=7,0=0.14) 0.182 (0.06, 0.30) 

MBM25-LMD t (v =7, ø = 0.18) —0.027 (—0.4, 0.33) 公式 (12-37) 09 
MBM25_LMD t (w = 14, ø = 0.07) —0.027 (—0.17, 0.11) 非 配 对 0.7 
mpM25_LMD t (v =7, ø = 0.015) —0.027 (—0.06, 0.01) 配对 + 0.1 
WpM25_LMD 二 项 分 布 (N = 8, q = 0.5) 0.25 (0.03, 0.65) 符号 0.3 
TBM25-LMD Wilcoxon T (N = 8) 一 20 Wilcoxon 0.2 





配对 t- 检 验 使 用 的 就 是 12. 3. 5 节 中 详细 讲述 的 配对 差 值 法 。 如 果 满 足 使 用 它 所 需 的 条 
件 ， 那 几乎 可 以 肯定 得 到 的 估计 的 精确 度 会 比 非 配对 纪检 验 好 〈 表 12-4, p=0.1). HPX 
个 原因 ， 配 对 t- 检 验 是 信息 检索 中 最 常见 的 一 种 检验 。 

tt 检验 和 配对 t- 检 验 都 依赖 于 假设 . 误差 五 服从 正 态 分 布 。 当 m 是 一 个 大 样本 的 均值 
时 ， 这 个 假设 是 合理 的 ， 因 为 由 中 心 极限 定理 (central limit theorem) A: 当 N 趋 于 无 穷 


时 ，N 个 服从 相同 分 布 〈 不 必 非 得 正 态 ) 且 方差 co<cc 的 独立 变量 的 均值 接近 方差 为 六 的 正 


不 能 使 用 + 检 验 的 唯一 原因 是 ，m 不 是 一 个 样本 均值 或 N 太 小 以 致 不 能 对 正 态 分 布 得 
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到 一 个 好 的 近似 。 在 大 部 分 这 些 情况 下 ， 可 行 的 替代 方法 是 bootstrap, bootstrap 不 属于 经 
典 检验 方法 的 原因 是 :尽管 与 这 些 经 典 方法 同样 地 古老 ， 但 把 bootstrap 用 作 正 式 的 统计 工 
具 还 是 最 近 的 事 ;， 也许 是 因为 该 方法 偏向 计算 密集 型 ， 所 以 在 经 典 方法 得 以 发 展 后 ， 才 发 现 
bootstrap 具有 实用 性 。 
2. 符号 检验 和 Wilcoxon 符号 秩 检验 
符号 检验 和 Wilcoxon 符号 秩 检验 使 用 指标 aa tae TE ma-r FOP i 
理解 为 
Prlsgn( 人 加 4A_B) = sgn(ta_g)|>0.5 (12-46) 
因为 这 个 原因 ， 相 比 于 估计 差 值 的 幅度 ， 这 些 检 验 更 符合 假设 检验 的 原来 目的 。 它 们 量化 了 
差别 存在 的 证 据 强度 ， 但 对 差别 的 幅度 做 出 了 细致 的 观察 。 尽 管 符号 检验 和 Wilcoxon 检验 
度量 错误 量 级 ， 也 就 是 说 ， 当 无 法 满足 配对 t- 检 验 的 假设 时 ， 可 以 使 用 这 两 种 方法 。 
对 于 符号 检验 ， 以 下 的 指标 是 信息 检索 系统 的 相对 有 效 性 的 指标 。 以 下 是 前 面 定义 的 
94-8 的 胜率 (win rate) | 
p= les|94-B0) > o}| 
Hi €s | ga-B(i) £ O}| 
wa >o. 5 的 意思 是 在 超过 一 半 指 标 中 ，A 比 B 更 有 效 。 由 Www 可 以 很 容易 地 得 到 一 个 合适 
的 替代 指标 : 


(12-47) 


ma_B=wWAB—0.5 (12-48) 
随机 变量 was 服从 参数 为 N= 二 |8| 和 g 二 tas 一 [Wasj 的 二 项 分 布 ， 这 是 真正 的 赢 率 ， 其 中 
久生 是 一 个 例子 。 误 差 Esp 一 Wop 一 ta 的 分 布 主要 依赖 于 未 知 的 tas。 为 了 估计 单 侧 p 值 ， 
我 们 假设 最 差 的 情况 ， 同 时 选择 tas 以 便 最 大 化 
p=Pr|tas + Eas > wap] (12-49) 
不 难 证 明 当 tsp 一 g 二 0.5 时 ， 取 p 最 大 值 ， 这 也 是 单 侧 符号 检验 的 结果 。 对 于 双 侧 检验 ， 
将 这 个 结果 翻 倍 即 可 。 
我 们 知道 Wap = 二 0 和 Wp 二 1 是 特殊 情况 ， 在 这 两 种 特殊 情况 中 ， 即 使 当 已 用 上 双 侧 p- 
值 ， 单 侧 p- 值 也 是 合适 的 。 这 是 因为 不 可 能 预先 知道 Ws 过 0 和 Wael, MEREKA 
时 ， 应 该 计算 单 侧 置 信 区 间 以 得 到 指定 的 置信 水 平 1 一 a。 
对 于 表 12-3 中 列 出 的 8 个 主题 ， 有 两 个 主题 的 yzeaes-nm>>0， 有 6 个 主题 的 maws-1wp 一 
0， 所 以 We 一 0. 25 H fa- =—0. 25。 对 于 N=8 且 q=0. 5 的 二 项 分 布 ， 我 们 有 





p=Prl|E| > |- 0.25||=2- Pr[Wap < 0.25]~0.3 (12-50) 
Wilcoxon AS AZT ma-e 
raB=9_ rnk(ga-B(i)) - sgn(ga—a(i)) (12-51) 


i€s 
其 中 rake) =| {iloga CD) MR i 隆 j， 那 在 这 一 简化 假设 下 ， 有 ga- CO) A 
ga_s(7)。 放 松 这 个 假设 将 给 分 析 带 来 意 想不到 的 复杂 性 ， 但 是 为 了 实际 应 用 ， 通 常 随机 打 
破 平局 或 赋予 一 个 平均 排名 是 有 意义 的 : 


mbk(a)=5 + 5: {i | 2 = gaa} +Hil æ < ga-B (0) (12-52) 


检验 仿照 假设 ， 差 值 的 相对 幅度 是 非常 重要 的 〈 尽 管 不 是 它们 的 精确 值 )， 因 此 ， 例 如 
(主题 351) mso_ivo 一 一 0.066 HE mgwws_iwp 二 十 0.009 (主题 354) 更 重要 。 处 理 过 程 如 
下 :对 所 有 差 值 的 绝对 值 大 小 按 升 序 进 行 排 序 ， 并 根据 它们 在 排名 列表 中 的 排名 赋予 相应 的 
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整数 权重 。 例 如 ， 赋 予 主题 352 的 差 值 权重 为 1， 因为 在 表 中 的 8 个 主题 中 它 的 差 值 是 最 小 
的 ; 而 主题 353 的 差 值 权重 是 8。 然 后 这 个 检验 计算 权重 的 总 和 ， 分 别 按 权重 是 正和 人 负 对 其 
进行 统计 ， 统 计时 根据 差 值 的 符号 进行 ， 

yahp 一 一 6 十 1 一 8 十 3 一 7 一 2 一 4 一 一 (12-53) 
对 于 给 定 的 N， 它 可 能 的 符号 秩 差 值 的 分 布 称 为 Wilcoxon = (Wilcoxon T distribu- 
tion) (如 图 12-4 所 示 )。 可 以 通过 枚 举 所 有 2* 种 可 能 的 结果 来 计算 累积 概率 。 对 于 这 个 例 
子 ， 共 有 2 二 256 种 可 能 的 结果 ， 且 幅度 值 为 20 或 更 大 的 有 50 个 。Wilcoxon 检验 因此 报告 
pX 50/2560. 2, 


Wilcoxon T 符号 秩 总 和 分 布 Wilcoxon T 符号 秩 累 积分 布 





-30 -20 -10 0 10 20 30 -30 -20 -10 0 10 20 30 
符号 秩 差 值 符号 秩 差 值 


图 12-4 Wilcoxon 工 符号 秩 总 和 分 布 以 及 累积 分 布 ， 其 中 N=8 


一 个 基于 替代 指标 的 p- 值 应 该 带 有 一 个 真实 差 值 的 估计 。 作 者 应 该 明确 指出 使 用 的 什 
么 检验 ， 同 时 读者 应 该 注意 真实 差 值 的 估计 查 准 率 是 未 知 的 。 连 同 实质 性 益 值 6$， 替 代 检 验 
能 提供 更 多 有 用 的 信息 。 一 个 确定 置信 区 间 为 Ma- > 的 替代 方法 比 一 个 确定 置信 区 间 为 
ma-s >0 的 替代 方法 更 有 用 。 


12.3.7 ”统计 检验 的 效 度 和 检验 力 


统计 检验 的 目的 是 估计 似 然 值 ， 某 个 指标 m 可 用 概率 来 解释 。 如 果 估 计 得 到 的 似 然 值 
与 预期 的 一 样 ， 那 么 这 个 检验 就 是 有 效 的 ; 如 果 当 指标 实际 上 不 是 由 概率 决定 时 ， 估 计 值 会 
很 小 ， 那 么 这 个 检验 就 是 有 检验 力 的 。 效 度 和 检验 力 一 起 刻画 了 检验 对 其 预期 目标 的 适用 
性 。 效 度 通常 简单 地 假定 ， 而 检验 力 则 使 用 检验 力 分 析 (power analysis) 去 估计 ， 这 里 ， 
本 身 假设 是 有 效 的 。 为 了 比较 信息 检索 系统 ， 我 们 考虑 设计 一 个 元 实验 去 判定 统计 检验 的 效 
度 和 检验 力 。 

考虑 这 样 一 个 信息 检索 实验 e= (As, Bas 8): 使 用 主题 集 s 评价 两 个 系统 A。 和 B。 
的 有 效 性 差 值 。 设 m. 是 根据 某 种 如 MAP 这 样 的 有 效 性 指标 得 到 的 测量 差 值 。 设 ps 或 c。 
对 应 由 某 些 统计 检验 方法 计算 得 到 的 P- 值 或 置信 区 间 。 

设 X. 二 (A。,B;,S) 是 一 个 独立 的 实验 ,使 用 相同 的 方法 不 同 的 主题 集 S 来 比较 两 个 
相同 的 系统 ， 其 中 | S| 二 |s|。 并 且 ， 让 M, 为 使 用 S 得 到 的 两 个 系统 A AB, 间 的 差 值 。 
这 个 差 值 的 真实 值 t, 为 


tz = E[M;] (12-54) 
使 用 可 能 的 模型 Af。 计算 p。， 该 模型 把 误差 为 E.=M,—t, 的 累积 概率 分 布 近似 为 ， 
M,(e)*Pr[Ez < e] (12-55) 


如 果 公式 (12-55) 在 一 个 合理 的 范围 内 对 有 所 的 x Ale 成 立 ， 那 么 由 这 条 公式 得 到 的 p- 值 
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或 置信 区 间 是 正确 的 ， 同 时 我 们 可 以 说 统计 检验 是 有 效 的 。 
一 般 来 说 ，t。 是 未 知 的 ， 所 以 不 能 直接 建立 效 度 。 假 设 有 独立 于 Xe 的 副本 X81 和 
xP. 对 应 的 指标 MY! aM?) 有 相同 的 分 布 ， 误 差 项 是 E EY, SUE ee 
Da =E! — EP =(Ml) — ts) — (MP! -ts)= MD — MP (12-56) 
给 定 由 NB 得 到 的 模型 XI ， 我 们 可 以 为 D* 建立 一 个 模型 Dt1， 并 将 其 与 通过 元 实验 得 
到 的 经 验 分 布 进行 比较 ， 以 验证 DE 的 有 效 性 。 如 果 对 于 相应 的 x Ad, A DE (qd) 守 PrLD。 
过 gd]， 我 们 可 以 肯定 地 推断 ，D, 对 所 有 x 都 是 有 效 的 ， 同 时 .Ms 也 是 一 样 。 
假设 检验 是 有 效 的 ， 那 对 应 于 显著 性 水 平 为 a 的 检验 力 是 
powera = Prlps < a| Hol (12-57) 
对 于 双 侧 检验 了 ,三 t。 二 0， 根 据 经 验 ， 这 个 检验 力 可 以 从 实验 的 一 个 样本 〔 且 t0) 估计 
得 到 。 采 用 一 个 m. A0 的 实验 可 以 很 好 地 近似 这 样 的 样本 ， 因 为 当 ms 关 0 时 ， 不 大 可 能 出 
现 t= 二 0， 估 此 可 能 性 可 能 不 准确 。 对 于 一 个 单 侧 检 验 ， 必 须 预 完 选择 Hot. <0 或 A= 
t20, E e20 和 t <0 是 等 概率 这 一 简单 假设 下 ,显著 性 水 平 为 a 的 单 侧 置信 区 间 的 有 
效 性 与 显著 性 水 平 为 24: 的 双 侧 置信 区 间 的 有 效 性 是 一 样 的 。- 

比 起 统计 检验 的 相对 有 效 性 来 说 ， 检 验 力 的 经 验 估 计 是 有 用 的 ， 因 为 在 一 个 总 体 上 进行 
实验 时 ， 发 现 某 种 方法 的 检验 力 比 另外 一 种 方法 更 好 ， 那 在 另外 一 个 不 同 的 总 体 上 进行 实验 
得 到 的 结果 ， 很 大 可 能 也 是 该 方法 的 检验 力 比 另外 一 种 方法 更 好 。 为 了 预测 某 个 实验 的 检验 
力 ， 必 须 使 用 检验 力 分 析 从 假设 的 总 体 分 布 中 构造 一 个 模型 At* ， 其 中 主题 数 为 1s|， 估 计 
的 真实 差 值 为 te ， 且 估计 的 样本 方差 为 os 。 

1. 度量 效 度 和 检验 力 

把 TREC 2004 Robust 专题 上 的 结果 作为 实验 的 一 个 总 体 ， 每 次 从 110 个 运行 实例 中 取 
出 两 个 进行 比较 ， 每 个 运行 实例 都 提交 给 专题 以 计算 MAP， 这 里 每 个 运行 实例 使 用 249 个 
主题 的 一 个 子 集 作为 评价 材料 。 为 了 计算 t- 检 验 、 符 号 检验 和 Wilcoxon 检验 的 效 度 和 检验 
H, RIIALE Cal, ely, Hep eM = (Ass Bes sm), e= (As, Bas 
s@ly, sop 8 中 每 个 都 由 124 个 主题 组 成 ， 这 些 主 题 都 是 从 专题 使 用 的 249 个 主题 中 以 不 
放 回 的 方式 随机 抽出 的 ， 因 此 它们 之 间 没 有 交集 。 对 于 总 共 191 840 个 样本 ， 构 造 这 些 实验 
对 以 便 每 个 不 同 的 实验 对 出 现 32 次 。 在 这 里 ， 不 取 32， 因 为 mY =o0, RTF 191 808 对 实验 。 

为 每 对 实验 构造 MB] 并 得 到 DR ， 是 在 不 使 用 oc. 的 情况 下 用 于 估计 me A my 间 的 
不 一 致 (discordance) 的 概率 。 

da= Primi. MP < 0] œ DEI (—|ml2)) (12-58) 

尽管 不 可 能 验证 任何 一 个 de WEHA de BARN, 那么 肯定 是 在 一 个 大 的 样本 集 X 

上 ， 且 该 样本 集 的 预测 和 实际 不 一 致 率 是 几乎 相等 的 ; 
{z EX | mel -mfl < 0} (12-59) 
d= dee d= Xi 
BRAVE FEMS 计算 单 侧 pË pa HEEE 191 808 个 例子 分 成 6 组。 为 了 保证 检验 的 有 
效 性 ， 对 于 每 二 组， 预测 和 实际 不 一 致 必须 几乎 相等 。 如 果 不 是 几乎 相等 ， 那 么 这 个 检验 就 
是 无 效 的 。 如 果 结 果 是 几乎 相等 ， 那 么 我 们 得 出 高 置信 和 度 的 结论 : 检验 对 于 每 一 组 所 表示 的 
p- 值 的 范围 是 有 效 的 。 
表 12-5 至 表 12-7 表明 t- 检 验 、 符 号 检验 和 Wilcoxon 检验 的 结果 是 有 效 的 。 每 个 表 分 


别 展 示 了 关于 每 组 的 p、dQd。 和 ds 的 范围 ， 并 把 预测 误差 写成 百分比 形式 : 
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errorp = d—d (12-60) 


d 
RMS 概括 了 6 个 范围 的 预测 误差 ; 
RMS 误 差 = 5 error? 


p 

总 的 来 说 ， 关 于 上 检验 的 预测 不 一 致 和 实际 不 一 致 的 比率 是 合理 的 ， 尽 管 t- 检 验 对 于 
po. 01 是 最 优 的 ， 得 到 的 估计 值 是 13. 4%， 比 经 验 结果 还 要 低 。 符 号 和 Wilcoxon 检验 对 
于 p<o. 01 的 情况 就 差 得 多 了 ， 对 于 p 的 其 他 取 值 范围 ， 情 况 也 一 样 糟糕 。 总 的 来 说 ， 
t- 检 验 的 预测 最 精确 且 RMS 误差 率 最 低 。 


表 12-5 + 检验 预测 不 一 致 ， 观 察 不 一 致 以 及 关于 p 的 检验 力 函 数 。 误 差 就 是 预测 不 一 致 与 
观察 不 一 致 的 比 不 为 1 的 数量 。RMS 误差 概括 了 这 6 个 误差 估计 


(12-61) 

















范围 对 预测 不 一 臻 实际 不 一 致 误差 
0. 00<p<0. 01 131567(68, 6% ) 676.5 781 —13.4% 
0.01l<p<0.02 7153(3.7% ) 427.6 458 —6.6% 
0.02<p<0.05 10775(5.6% ) 1025.7 981 4.6% 
0.05<p<0.10 9542(5.0% ) 1433. 2 1397 2.6% 
0.10<p<0. 20 11436(6.0% ) 2592.4 2455 5.6% 
0.20<p<0.50 21335(11.1%) 8182.5 7837 4.4% 

RMS 误差 :7. 1% 
#126 符号 检验 预测 不 一 致 、 观 察 不 一 致 以 及 关于 p 的 检验 力 函 数 。 误 差 就 是 预测 不 
一 致 与 观察 不 一 致 的 比 不 为 1 的 数量 。RMS 误差 概括 了 这 6 个 误差 估计 

范围 对 预测 不 一 致 实际 不 一 致 误差 
0. 00<p<0.01 125875C65.6% ) 675.0 822 —17.9% 
0.01<p<0.02 9318(4.9% ) 581.1 550 5.6% 
0.02<p<0.05 10068¢5. 2% ) 1009.9 965 4.6% 
0.05<p<0.10 9949(5.2% ) 1524.3 1402 8.7% 
0. 10<p<0. 20 10300¢5. 4% ) 2294.6 2107 8.9% 
0.20<p<0. 50 26298(13.7% ) 10293. 7 8063 27.7% 

RMS 误差 :14. 7% 
% 12-7 Wilcoxon 符号 秩 检验 预测 不 一 致 、 观 察 不 一 致 以 及 关于 pHRBABR, REME 
预测 不 一 致 与 观察 不 一 致 的 比 不 为 1 的 数量 。RMS 误差 概括 了 这 6 个 误差 估计 

范围 对 预测 不 一 致 实际 不 一 致 误差 
0. 00<p<0.01 137008(71.4% ) 655.2 981 —33.2% 
0.01<p<0.02 6723(3.5% ) 402.1 466 —13.7% 
0.02<p<0. 05 100965.3% ) 956.6 1027 —6.9% 
0.05<p<0. 10 8737(4.6% ) 1311.7 1382 —5.1% 
0.10<p<0. 20 10267(5.4% ) 2320.1 2444 —5.1% 
0.20< p<0. 50 18977(9.9% ) 7287.5 7609 —4. 2% 





RMS 误差 ;15. 3% 


表 12-8 给 出 了 三 个 检验 的 RMS 误差 以 及 a 二 0.01 和 a=0. 05 时 的 单 侧 检 验 力 。Wilc- 
oxon 检验 的 检验 力 最 高 。 但 是 由 于 Wilcoxon 一 贯 过 于 乐观 ， 使 得 它 所 具备 的 真实 检验 力 并 
不 是 数值 显示 的 那么 高 : WR p- 值 更 精确 ， 那 检验 力 就 更 低 。 符 号 检验 比 检验 的 检验 力 
要 低 ， 但 误差 要 更 高 。 
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关于 这 些 结果 不 支持 检验 的 效 度 引起 了 大 家 的 忧虑 ; 相反 ， 更 低 的 误差 率 表 明 : 在 
比较 信息 检索 系统 时 ， 应 选择 t- 检 验 。 
表 12-8 将 TREC 2004 Robust 专题 中 的 运行 实例 两 两 进行 比较 : 分 别 计算 它们 在 124 个 主题 


上 的 MAP 差 值 ， 然 后 计算 统计 检验 的 效 度 和 单 侧 检 验 力 ， 比 较 两 个 结果 。 正 如 表 
12-7 所 示 ，Wilcoxon 系统 性 地 低估 了 p- 值 ， 因 此 高 估 了 检验 力 








检验 力 
RMS 误差 a=0.1 a=0. 05 
TRE 7.1% 0. 69 0. 78 
符号 检验 14. 7% 0. 66 0.76 
Wilcoxon 检验 15.3% 0. 71 0. 80 


2. 不 同 的 样本 大 小 

上 述 实验 的 结果 在 一 个 主题 数 ?一 124 的 文档 集 上 度量 了 MAP 评分 的 差别 。 为 了 评价 
选择 不 同 的 n 对 效 度 和 -检验 的 检验 力 的 影响 ,我们 采用 这 样 的 实验 : XL = (AL, Be, 
OF XP =A Ba S), FEF s 和 S 包含 的 主题 数量 不 同 。 我 们 把 249 个 TREC 主题 的 子 
集 作为 s， 其 余 的 主题 作为 $5， 因此 有 |s| 二 n，|S| 二 249 一 n。 在 这 一 情况 下 ，E? MEP! 
就 不 是 同 分 布 了 。 在 t+ 检验 模型 下 ， 我 们 有 po =p) 二 0， 然 而 


2 
Tan n—1 





oF ~“ 949 -n — 1 (12-62) 
因此 ， LD, =0 
2 一 
op, ¥ (1+ oor L) ap (12-63) 


表 12-9 展示 了 在 n 取 不 同 值 时 得 到 的 RMS 误差 和 检验 力 ， 其 中 每 次 增加 25。 已 知 t- 

检验 一 般 对 任意 n HAR, Ti RMS 误差 一 般 随 着 n 的 增加 而 降低 。RMS 误差 在 n 取 较 小 
值 时 会 增加 这 是 合理 的 ， 因 为 预测 不 一 致 性 是 基于 少量 信息 的 。 同 样 当 % 取 较 大 值 时 
(n=225), RMS 误差 增加 也 不 奇怪 ， 因 为 S 所 包含 的 主题 较 少 将 导致 在 计算 实际 不 一 致 性 
时 出 现 不 确定 性 。 对 于 n=249 的 情况 ，RMS 误差 没有 定义 ， 因 为 1S| 王 0。RMS 误差 结果 
与 刀 -检验 的 效 度 是 一 致 的 ， 且 效 度 在 25<n<249 时 保持 不 变 。 尽 管 效 度 保持 不 变 ， 但 随 着 
n 的 增加 ， 检 验 力 如 预期 的 一 样 也 显著 增 大 。 

表 12-9 ”使 用 不 同 主题 数 n 的 检验 得 到 的 效 度 和 检验 力 的 对 比 

" | RMS 误差 二 a=0.1 aen a=0. 05 


25 11. 4% 0.39 0.56 








50 10.0% 0.53 0.67 
75 6.5% 0.61 0.72 
100 7.1% 0.65 0.76 
125 6.8% 0.69 0.78 
150 6.0% 0.71 0.80 
175 3.9% | 0.73 0.81 











12.38 ”报告 指标 的 查 准 率 
统计 检验 给 出 了 明确 的 定义 ， 但 一 般 会 被 误解 ， 指 标的 查 准 率 的 量化 估计 表示 成 一 个 置 
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信 边 界 或 pr- 值 。 因 此 ， 这 只 是 扩展 了 量化 估计 而 不 是 替代 了 它 。 我 们 认为 置信 区 间 比 p- 值 
更 好 ， 因 为 它们 包含 了 同样 地 信息 ， 但 置信 区 间 更 直观 ， 且 把 指标 放 到 了 前 面 或 者 中 间 。 

假设 检验 永远 不 是 绝对 的 ， 且 把 指标 和 查 准 率 估计 放 到 了 “显著 的 ”或 “不 显著 的 ”的 
明确 声明 的 后 面 ， 这 是 不 正确 的 。“ 没 有 差别 ”的 空 假设 不 为 我 们 提供 任何 信息 。 一 个 合适 
的 假设 应 该 预测 一 个 被 认为 是 实质 性 的 非 零 差别 ， 查 准 率 估计 量化 了 证 据 强 度 ， 该 证 据 强 度 
指 一 个 指标 反映 或 没有 反映 这 一 差别 。 

如 果 可 能 ， 我 们 应 该 选用 配对 纪检 验 。 如 果 对 于 只 有 赢 / 输 的 情况 ， 符 号 检验 的 效果 很 
好 。Wilcoxon 检验 不 大 直观 ， 尽 管 它 比 符 号 检验 强大 且 明 显 比 配对 t- 检 验 强 大 ， 但 对 于 较 
小 的 P- 值 ， 它 就 完全 是 错误 的 。 它 所 服从 的 分 布 是 不 会 自然 出 现 的 ， 且 随 着 样本 大 小 的 增 
加 ， 它 的 方差 是 无 界 的 ， 因 此 ， 不 存在 替代 差别 的 真实 〈 总 体 ) 值 : 没有 采用 中 心 极限 理 
论 。 尽 管 在 不 采用 配对 t- 检 验 时 一 般 会 采用 Wilcoxon 检验 ， 但 可 能 选用 bootstrap 会 更 好 。 


12.3.9 元 分 析 


元 分 析 是 一 种 将 若干 个 估计 值 组 合成 一 个 ， 从 而 得 到 一 个 置信 和 度 更 高 的 总 体 估计 的 技 
术 。S 一 种 简单 的 方法 就 是 对 一 系列 的 统计 独立 的 实验 或 者 评价 采用 符号 检验 (12. 3.6 节 )， 
且 使 用 二 元 判断 (是 /不 是 ) 对 每 个 实验 或 者 评价 进行 判断 。 例 如 ， 如 果 我 们 构造 一 个 假设 
A> 下 ， 并 进行 4 次 独立 度量 后 都 有 A- BDO, 我 们 可 以 使 用 单 侧 符 号 检验 得 出 结论 A>B 
(D<0. 06) 。 在 进行 单 侧 检验 时 采用 标准 警告 。 如 果 我 们 简单 地 观察 同一 个 结果 4 次 ， 且 没 
有 构造 任何 先 验 假 设 ， 那 采用 双 侧 检验 是 合适 的 ， 会 得 到 同样 地 结论 但 置信 度 会 更 低 ， A> 
B(2D<0.13)。 当 要 比较 各 个 实验 的 某 种 性 能 但 无 法 获得 效应 大 小 和 查 准 率 估 计时 ， 一 般 会 
采用 符号 检验 将 这 些 不 同 实验 的 结果 组 合 起 来 。 一 般 的 方法 一 一 将 各 个 实验 的 结果 组 合 起 来 
构造 出 一 个 带 查 准 率 估计 的 通用 结果 一 一 称 为 元 分 析 (meta-analysis)。 在 如 医药 这 些 领 域 ， 
生命 和 大 量 的 金钱 都 承受 风险 ， 因 此 法 律 上 规定 使 用 系统 元 分 析 。 

下 面 将 详细 介绍 的 固定 效应 模型 (fixed-effect model) 元 分 析 是 一 种 更 强大 的 方法 ， 因 
为 该 方法 综合 了 各 个 研究 的 效应 大 小 和 查 准 率 估 计 一 一 在 符号 检验 中 丢失 的 信息 一 一 来 得 到 
一 个 更 精确 的 总 体 估 计 。 表 12-10 的 前 4 行 给 出 了 LMD 和 DFR 的 对 比 结果 。 这 4 个 结果 中 
有 3 个 结果 表明 LMD 更 优 ; 另外 一 个 结果 则 不 然 。 没 有 一 个 结果 是 显著 的 (a 二 0.05)。 报 
告 的 p- 值 0.05 是 对 0. 051 四 舍 五 人 后 得 到 的 。 暂 和 且 不 管 烦琐 的 细节 ， 对 于 相反 的 证 据 ( 尽 
SR), ， 筛 选 掉 这 些 结果 是 不 合适 的 。 符 号 检验 得 到 p 人 0.13， 这 不 是 一 个 令 人 信服 的 证 
据 。 另 一 方面 ， 固 定 效应 模型 给 出 了 差异 的 估计 和 查 准 率 估计 指出 po. 02。 

表 12-10 LMD (公式 (9-32)) 和 DFR (公式 (9-51) 和 公式 (9-52)) 的 MAP 的 差别 的 元 分 析 : 

MAPuw-om。 所 有 实验 的 组 合 显著 性 水 平 (0.02) 都 比 单个 实验 的 显著 性 水 平 要 低 























实 验 MAPLMD-DFR P ( 双 侧 上 检验 ) 
TREC 1998 0.010 (-0.002 - 0.021) 0.09 
TREC 1999 0.009 (-0.006 - 0.025) 0.24 
GOV2 2005 -0.004 (-0.027 - 0.020) 0.75 
GOV2 2006 0.023 (-0.000 - 0.047) 0.05 
符号 检验 >0 - 0.13 
固定 效应 模型 0.010 (0.002 - 0.018) 0.02 
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国定 效应 模型 将 结果 集 组 合 起 来 R 二 {Cmi ,xi))， 其 中 m 是 一 个 带 常 见 真实 值 t 的 量 
值 的 指标 ，x; 是 它 的 查 准 率 。 在 我 们 的 例子 中 ， 这 个 量 是 指 在 一 个 也 许 更 多 样 化 的 假设 总 
体 上 的 MAP- 。 在 元 分 析 中 ， 查 准 率 一 般 表示 为 指标 的 方差 的 倒数 。 

Ti =o” (12-64) 
如 置信 水 平 或 p- 值 一 样 ， 方 差 的 倒数 只 是 传达 同样 信息 的 另 一 种 方法 而 已 ， 如 果 假 设 分 布 
是 有 效 的 ， 二 者 可 以 互 换 。 在 元 分 析 中 ,我 们 在 使 用 “ 查 准 率 ”一 词 时 ， 并 没有 给 它 赋 子 一 
个 数值 ， 读 者 可 以 假设 该 词 就 是 指 方差 的 倒数 。 

元 分 析 的 第 一 步 是 保证 每 个 指标 使 用 的 是 相同 的 度量 方法 和 度量 单位 ， 且 实际 上 度量 的 是 
同样 地 东西 。 第 二 步 是 把 置信 水 平 或 p- 值 改写 成 方差 的 倒数 的 形式 ， 这 可 以 通过 道 转 它们 的 计 
算 过 程 来 实现 。 常 用 的 估计 和 它 的 查 准 率 通 过 计算 各 个 指标 的 加 权 查 准 率 的 均值 来 得 到 : 

> mo 
m= Soe ， ar2 = Query” (12-65) 
可 以 使 用 一 些 常规 的 方法 ， 如 使 用 c 和 累积 概率 分 布 ， 计 算 组 合 后 的 结果 的 置信 水 平 或 pt. 

2008 年 美国 总 统 选举 就 为 我 们 提供 了 一 个 正确 使 用 以 及 错误 使 用 统计 方法 的 案例 。 尽 
管 调查 报告 一 致 认 为 奥巴马 是 领先 的 ， 但 权威 人 士 反复 强调 调查 结果 是 “在 误差 范围 内 ”或 
“统计 白 热 ” 或 “不 分 胜 负 ”。 相 反 ， 通 过 对 比 各 国 的 调查 结果 的 两 两 间 的 差异 的 元 分 析 指 出 
奥巴马 的 领先 是 显著 的 ， 也 是 实质 性 的 ， 并 预测 最 终 奥 巴 马 将 以 轻微 优势 胜出 .9 


12.4 最 小 化 判定 工作 


人 的 实质 工作 就 是 对 文档 进行 判断 ， 为 信息 检索 评价 得 到 一 个 判定 集 。 对 本 章 中 的 这 点 
而 言 ， 我 们 假设 判定 是 完备 的 ， 每 个 文档 对 于 每 个 查询 而 言 都 存在 一 个 二 元 相关 性 判定 。 文 
档 池 方法 试图 满足 这 一 假设 : 它 要 求 池 中 的 每 个 文档 都 有 一 个 判定 结果 ， 且 把 池 外 的 文档 都 
认为 是 不 相关 的 。 本 节 将 弱化 这 一 假设 ， 首 先 修改 文档 池 方 法 以 减少 判定 的 次 数 ， 然 后 通过 
修改 我 们 估计 MAP 的 方法 ， 将 池 中 还 没有 进行 判定 的 文档 考虑 进来 。 

用 于 两 种 不 同 评价 而 言 ， 作 为 相关 性 黄金 标准 的 判定 〈 采 用 qrels 的 形式 ) 是 : 

D 系统 的 评价 结果 影响 了 应 该 对 哪些 文档 进行 判定 如， 参与 指定 TREC 任务 的 系统 ) 。 

2) 系统 的 评价 结果 不 会 影响 应 该 对 哪些 文档 进行 判定 。 

为 了 以 上 两 个 目的 ， 我 们 这 里 关心 判定 策略 的 效率 和 有 效 性 。 当 使 用 qrels 作为 黄金 标 
准时 ， 效 率 可 以 用 人 的 工作 量 来 度量 ， 有 效 性 可 以 使 用 指标 的 效 度 和 查 准 率 来 度量 。 

我 们 假设 MAP 是 这 一 小 节 的 主要 的 有 效 性 指标 。 也 就 是 说 ， 本 节 根 据 各 种 不 同 策略 度 
量 系统 的 “真实 ”AP 的 能 力 来 对 它们 进行 考 寒 。 

在 我 们 讨论 各 个 策略 之 前 ， 值 得 先 考虑 一 个 理想 qrels 集 的 性 质 ， 使 得 在 给 定 的 用 于 度 
量 的 一 组 主题 、 文 档 和 系统 上 ， 尽 可 能 地 达到 最 精确 的 有 效 度量 。 理 想 qrels 集 将 表示 每 个 
文档 关于 每 个 主题 的 真实 相关 性 ， 且 独立 于 所 评价 的 系统 。 因 此 上 述 的 两 种 标准 在 这 里 都 是 
一 样 的 。 

任何 真实 的 qrels 集 都 会 由 于 以 下 两 个 原因 而 不 可 能 是 理想 的 : 定义 相关 性 时 的 不 精确 
性 ， 以 及 给 定 某 个 定义 下 估计 相关 性 的 方法 的 效 度 和 查 准 率 。 真 实 相关 性 这 一 概念 与 其 他 真实 
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概念 一 样 难以 描述 。 “满足 用 户 的 信息 需求 ”也 许 是 最 接近 的 一 种 描述 方式 了 ， 但 是 我 们 难 
以 确切 地 知道 用 户 的 信息 需求 是 什么 或 用 户 的 需求 是 否 得 到 满足 了 。 在 未 知 效 度 和 查 准 率 的 
情况 下 ， 可 要 求 用 户 给 出 一 个 近似 。 一 份 由 墨西哥 苦 杏 仁 研 究 所 发 表 的 报告 对 于 美国 人 检索 
“ 瘤 症 治疗 方法 ”的 信息 需求 可 能 是 满足 的 ， 也 可 能 是 不 满足 的 。 假 设 用 户 是 指 “ 已 有 的 癌 
症 治疗 方法 ”， 同 时 如 果 我 们 认为 苦 杏仁 在 美国 不 是 一 种 已 有 的 治疗 方法 ， 那 用 户 的 需求 就 
没有 得 到 满足 。 但 是 用 户 可 能 不 清楚 苦 杏 仁 是 不 是 一 种 已 有 的 治疗 方法 ， 因 此 会 导致 作 相 关 
性 判定 时 出 错 。 第 三 方 的 判定 者 可 能 更 了 解 苗 禁 仁 的 功效 ， 但 是 他 们 并 不 知道 用 户 是 指 “ 已 
有 的 瘤 症 治疗 ”还 是 “最 后 能 尝试 的 癌症 治疗 方法 ”。 

尽管 存在 这 些 问题 ， 但 是 人 工 判定 还 是 相关 性 判定 最 好 的 做 法 。 无 论 判 定 者 是 用 户 还 是 
第 三 方 人 员 ， 判 定 工作 带 来 的 影响 是 深远 的 ， 因 为 任何 一 个 主要 的 判定 因 束 都 会 限制 到 信息 
检索 评价 工作 的 应 用 范围 。 穷 举 判 定 〈exhaustive adjudication) 是 最 直接 的 方法 ， 该 方法 让 
一 个 判定 者 或 一 队 判 定 者 对 文档 集中 的 每 个 文档 关于 每 个 主题 都 进行 相关 或 不 相关 的 标记 。 
对 于 现在 的 文档 集 ， 使 用 穷 举 判定 的 工作 量 是 大 得 令 人 难以 承受 的 。 一 个 小 型 的 TREC 语 
料 库 就 包含 了 50 个 主题 和 大 约 500 000 个 文档 。 使 用 穷 举 判定 将 需要 进行 2500 万 次 判定 : 
每 个 判定 30 秒 ， 需 要 大 约 20 个 人 年 。 尽 管 如 此 ，qrels 也 会 不 精确 ， 因 为 判定 者 会 犯错 或 
遇 到 很 多 不 确定 的 情况 。 让 3 个 独立 的 判定 者 对 文档 进行 标记 并 采用 多 数 人 的 意见 作为 
qrels， 这 样 做 可 以 得 到 更 精确 的 qrels 集 ， 但 需要 的 工作 量 将 超过 40 个 人 年 。 一 般 来 说 ， 人 
类 工作 量 越 大 ， 得 到 的 qrels 集 越 精 确 。 但 是 要 达到 近似 或 更 好 的 判定 效果 ， 有 很 多 比 穷 举 
判定 更 高 效 的 策略 。 

暂且 不 管 工作 量 ，qrels 中 的 某 些 误差 是 不 可 避免 的 。 通 过 观察 在 使 用 它们 时 对 信息 检 
索 的 有 效 性 指标 的 效 度 和 查 准 率 所 带 来 的 影响 ， 可 判断 这 些 误差 是 不 是 重要 的 ，。 


12.4.1 为 判定 选择 合适 的 文档 


对 于 每 个 主题 ，TREC 的 文档 池 方 法 将 每 个 参加 测试 的 系统 返回 的 前 个 文档 构建 为 
一 个 文档 池 ， 从 而 避免 了 采用 穷 举 判定 时 所 带 来 的 大 量 工作 。 只 有 池 中 的 文档 才 需 要 判定 ; 
其 他 文档 都 认为 是 不 相关 的 。k 二 100 这 一 常用 取 值 在 由 50 个 主题 和 500 000 个 文档 组 成 的 
测试 集 上 效果 很 好 。 然 而 即使 对 于 这 种 规模 的 文档 集 ， 进 行 评 价 的 工作 量 还 是 巨大 的 《回顾 
12. 2 节 ， 当 中 提 到 对 TREC-8 进行 86 830 次 相关 性 判定 ， 即 使 每 次 判定 只 需 耗 时 30 秒 ， 仍 
将 大 约 需要 花费 判定 者 724 小 时 ) 。 对 于 文档 数量 更 多 、 主 题 数 更 大 的 大 文档 集 ， 工 作 量 将 
会 大 得 令 人 望而却步 。 然 而 ， 无 论 对 于 模拟 大 规模 的 信息 检索 任务 还 是 提高 指标 的 查 准 率 ， 
都 需要 更 大 的 文档 集 。 我 们 研究 其 他 策略 的 效率 和 有 效 性 ， 为 判定 选择 合适 的 文档 。 

可 以 采用 真正 随机 从 文档 集中 抽取 出 来 的 样本 集 ， 但 是 除非 样本 空间 很 大 ， 和 否则 将 导致 
样本 集中 只 包含 非常 少 的 相关 文档 ， 反 而 会 降低 了 样本 集 对 度量 信息 检索 有 效 性 的 作用 。 到 
而 代 之 的 是 ， 采 用 更 容易 得 到 相关 文档 的 偏差 抽样 技术 。 文 档 池 方 法 就 是 该 技术 的 一 个 实例 ， 
系统 在 某 个 测试 中 检索 出 的 高 排名 的 文档 〈 即 那些 在 文档 池 中 的 文档 ) 比 那 些 随机 选择 的 文档 
更 有 可 能 是 相关 的 。 并 且 ， 这 些 文档 也 比 其 他 那些 排名 较 低 的 相关 文档 更 容易 区 分 各 个 系统 。 

采用 任何 的 偏差 抽样 技术 都 存在 风险 : 得 到 的 指标 反映 的 不 是 整个 系统 的 有 效 性 ， 而 是 
整个 系统 与 样本 偏差 的 一 致 程度 。 特 别 是 ， 结 果 中 包含 了 文档 池 中 文档 的 系统 可 能 会 比 那 些 
效果 一 样 但 结果 中 没有 包含 文档 池 中 文档 的 系统 要 获得 更 高 的 评分 。 对 于 由 50 个 主题 和 
500 000 个 文档 组 成 的 TREC 文档 集 ，. 偏 差 还 不 明显 ; 实验 表明 同 个 系统 无 论 对 文档 池 有 无 
贡献 ， 所 获得 的 评分 是 差不多 的 。 最 终结 论 是 ，TREC 文档 集 适 用 作 档 案 基 准 : 可 以 用 已 有 
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的 qrels 测试 新 的 系统 或 方法 ， 同 时 使 用 相同 的 文档 集 进行 指标 间 的 比较 。TREC 中 的 方法 
作为 与 其 他 方法 进行 比较 的 标准 。 

1. 交互 搜索 与 判定 

交互 搜索 与 判定 (interactive search and judging, IS) 是 一 种 用 于 选择 并 判定 文档 的 简 
单 且 有 效 的 方法 。 一 个 熟练 的 检索 者 使 用 搜索 引擎 找 出 并 标记 尽 可 能 多 的 相关 文档 。 使 用 哪 
个 搜索 引擎 并 没有 关系 。 有 用 的 特征 包括 相关 反馈 ;修正 查询 去 探索 不 同方 面 的 主题 的 能 
力 ; 记录 判定 的 机 制 ， 避免 对 已 判定 的 文档 重复 判定 的 机 制 。 在 TREC 6 之 前 ，Cormack 等 
人 (1998) 使 用 ISJ 为 特定 任务 构造 了 qrels 集 ， 用 到 邻近 度 排名 和 一 个 用 户 界面 来 支持 上 
述 特征 。 每 个 主题 的 处 理 过 程 大 概 需要 2 个 小 时 ， 总 共 需 要 100 个 小 时 大 约 是 对 TREC 
进行 判定 的 1/7 的 工作 量 。Cormack 等 人 〈1998) 和 Voorhees (2000) 的 研究 表明 : 采用 这 
种 方法 得 到 的 qrels 集 的 评价 结果 与 TREC 的 官方 结果 相近 。 通 过 只 考虑 原来 做 法 得 到 的 〈 按 
时 间 先 后 ) 第 一 个 文档 的 qrels， 可 以 降低 IS] 所 带 来 的 工作 量 。 这 样 少 一 个 数量 级 的 工作 量 所 
得 到 的 评价 结果 也 与 TREC 的 官方 结果 很 相近 .“ 多 相近 才 足 够 ?” 这 一 问题 将 在 后 面 解 答 。 

2. Move-to-front 文档 池 

move-to-front 文档 池 (MTF) 采用 增 量 式 的 方法 为 判定 选择 文档 ， 该 方法 优先 选择 来 
自 性 能 较 好 的 系统 的 高 排名 的 文档 (Cormack 等 人 ，1998)。 概 念 上 ， 把 系统 返回 的 文档 按 
序 放 进 一 个 队列 中 进行 考虑 。 每 个 文档 被 依次 判定 ， 如 果 该 文档 之 前 未 被 判定 ， 那 么 就 为 其 
记录 一 个 qrel。 对 队列 中 来 自 系 统 的 文档 不 断 被 处 理 ， 直 至 连续 遇 到 r 个 不 相关 文档 。 实 际 
上 ， 我 们 采用 一 个 优先 队列 对 所 有 系统 交错 进行 处 理 。 一 旦 选中 某 个 相关 文档 ， 贡 献 这 个 文 
档 的 系统 就 把 它 移 到 队列 的 顶部 。MTF 选 出 的 相关 文档 的 比例 要 比 文档 池 方 法 高 得 多 ; 对 
采用 这 两 种 方法 得 到 的 qrels 分 别 进行 评价 ， 得 到 的 结果 相近 。 下 面 将 介绍 有 多 相近 。 

3. 浅 文 档 池 

调整 文档 池 方 法 的 工作 量 的 一 种 简单 方法 就 是 修改 文档 池 的 深度 上 。 也 就 是 说 ， 不 考虑 
系统 的 性 能 ， 从 每 个 系统 中 选 出 大 个 文档 ， 而 MTF 会 从 性 能 更 好 的 系统 中 选择 更 多 的 文 
档 。 采 用 深度 为 的 文档 池 得 到 的 相关 文档 的 密度 要 比 MTF i, BEREX k 的 文档 池 
的 偏差 会 更 小 这 一 假设 下 ， 该 方法 还 是 很 常用 的 。 特 别 地 ， 当 k 较 小 时 ， 推 荐 使 用 P@k 蔡 
代 MAP， 这 可 能 会 比 直接 使 用 MAP 产生 更 低 的 偏差 (Sanderson 和 Zobel，2005)。 另 外 ， 
当 使 用 深度 为 的 文档 池 计 算 P@k 时 ， 我 们 知道 P@k 所 依赖 的 每 个 文档 的 相关 性 是 已 知 
的 。 因 此 ， 使 用 P@k 替代 MAP 可 能 会 得 到 更 高 的 查 准 率 和 更 低 的 偏差 。 由 下 面 的 例子 可 
以 知道 ， 这 一 说 法 并 不 完全 是 经 验 之 谈 。 

4. 更 多 还 是 更 少 主 题 

一 种 相对 没有 那么 直接 的 调整 文档 池 工 作 量 的 方法 是 ， 使 用 一 个 包含 更 多 或 者 更 少 主 题 
的 文档 集 (Sanderson 和 Zobel，2005)。 判 定 的 总 工作 量 大 约 正比 于 kk，%w， 其 中 是 池 的 
RE, n 是 主题 数 (尽管 不 同系 统 的 结果 重 欠 通常 是 排名 越 高 重 秋 数量 越 大 ) 。 在 每 个 主题 
判定 的 文档 数 与 主题 数 之 间 存 在 一 个 权衡 关系 。 正 如 表 12-9 Bra, 系统 比较 的 效 度 和 检验 
力 均 随 n 的 增加 而 增 大 。 另 外 ， 这 些 量 也 随 着 池子 深度 的 增加 而 增 大 。 增 大 Kn By 
能 增 大 指标 的 查 准 率 。 问 题 是 ， 对 于 固定 判定 工作 量 ， 使 用 较 多 的 主题 和 较 浅 的 池 ， 还 是 使 
用 较 少 的 主题 和 较 深 的 池 更 好 ? 同样 地 问题 也 出 现在 其 他 方法 中 ， 如 IS) 和 MTF. 

5. 评价 文档 池 策 略 

在 评价 选择 判定 文档 的 策略 时 ， 我 们 必须 考虑 度量 系统 有 效 性 的 效果 。 如 果 已 知 真实 的 
有 效 性 ， 我 们 可 以 把 它 用 作 比 较 基准 。 我 们 已 有 的 最 佳 黄 金 标准 是 采用 文档 池 方 法 在 某 个 较 
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大 的 天 值 下 得 到 的 一 个 结果 集 。 传 统 的 做 法 是 ， 只 根据 文档 池 和 判定 策略 对 系统 有 效 性 进 
行 排名 的 能 力 来 评价 它们 ， 使 更 有 效 的 系统 排 在 那些 没 那么 有 效 的 系统 前 面 。 将 排名 进行 两 
两 比较 ， 如果 排名 相似 ， A AAT 的 差异 就 不 是 那么 重要 。 这 个 假设 一 一 我 们 不 完 
全 认同 根据 某 种 给 定 
AAAI MAP) 是 不 相关 的 (Buckley 和 Voorhees, 2005), 无 论 是 否认 同 这 一 假 
设 ， 好 的 系统 排名 是 一 个 方法 的 一 般 效 度 的 证 据 。 

一 般 使 用 Kendall r 排名 相关 系数 (以 它 的 提出 者 一 一 英国 统计 学 家 Maurice Kendall fr 
名 的 ) 来 比较 两 个 不 同 的 系统 排名 。T 表 示 两 个 排名 间 的 反 演 (inversion〉 数 ; 一 个 反 演 是 
指 一 对 (x，Yy)， 表 示 在 一 个 排名 中 x HER My 靠 前 ， 而 在 另 一 个 排名 中 ，x e y 排名 靠 
后 。 如 果 两 个 排名 等 价 ， 则 r=1; 如 果 排 名 相反 ， 则 t= 一 1; 如 果 它 们 不 相关 ， 则 rc*0 

在 信息 检索 评价 中 ， 考 虑 一 个 由 TREC 实验 度量 的 系统 集 。Res1 表示 当 采 用 深度 为 
k= 二 100 的 传统 的 文档 池 方 法 进行 评价 时 ， 根 据 MAP 得 到 的 黄金 标准 排名 。Ress 表示 采用 
其 他 不 同 的 判定 策略 时 得 到 的 排名 。 没 有 正式 的 理由 下 ， 我 们 认为 0.9 CRIT 5% 的 反 
演 ) 很 好 地 等 同 于 《good agreement) 黄金 标准 (Voorhees, 2000), 

使 用 + 带 来 了 一 个 严重 的 问题 ， 它 不 考虑 指标 的 查 准 率 。 由 表 12-9 可 见 ， 对 于 n=50, 
k=100 (TREC 2004 Robust 专题 中 采用 的 池 深 度 ) 的 情况 ， 度 量 MAP 差异 的 检验 力 大 约 
为 67% (对 于 a 二 0.05)。 也 就 是 说 ，12. 3. 6 节 介 绍 的 二 检验 用 于 p<. 05 的 检验 时 ， 只 能 
区 分 全 部 系统 对 (两 两 对 比 ) 的 67% 。 因 此 ， 即 使 采用 黄金 标准 ， 系 统 对 被 错误 排名 的 期 
望 至 少 为 2. 8 多 。 另 一 种 误差 率 同样 是 2. 8 多 的 方法 与 黄金 标准 完全 吻合 (rc 二 1)， 或 者 高 达 
5. 6% 的 反 演 (r=0. 89)。 误 差 率 为 5. 6% 的 方法 导致 的 反 演 可 低 至 2. 8% (tr 二 0.94)， 或 高 
至 8.4% (r=0. 83). Kendall 的 = 不 一 定 能 把 这 些 情况 区 分 开 来 。 

作为 Kendall r 的 替代 方法 ， 我 们 采用 显著 水 平 为 a (BIL Cormack 和 Lynam, 2007; 
Carterette，2009b) AUSF RIB (significant inversion rate) 来 比较 排名 间 的 差异 。 系 统 
的 显著 对 (significant pair) 就 是 采用 可 选 方法 (文档 池 / 判 定 法 ) 与 黄金 标准 (p<<a) 。 进 
行 比较 时 ， 在 MAP 上 得 到 显著 性 差异 一 个 显著 反 演 (significant inversion) 就 是 一 个 显著 
对 ， 由 可 选 方 法 与 黄金 标准 组 成 的 反 演 。 显 著 反 演 率 就 是 显著 反 演 占 全 部 显著 对 的 比例 。 一 
个 显著 反 演 率 小 于 a 的 方法 是 有 效 的 ， 因 为 任何 由 于 偏差 所 导致 的 误差 都 小 于 随机 误差 。 可 
选 方 法 的 查 准 率 由 它 的 检验 力 来 度量 。 

总 的 来 说 ， 如 果 文 档 池 方 法 的 检验 力 较 高 且 观 察 偏差 相对 于 随机 误差 不 是 实质 性 的 ， 那 么 选 

6. 示例 实验 

我 们 将 给 出 一 个 示例 实验 来 说 明 判定 工作 量 和 效 度 间 的 权衡 ， 以 及 度量 结果 的 查 准 率 
(Cormack 和 Lynam，2007)。 上 面 已 经 进行 了 可 选 方 法 间 的 比较 ， 除 了 ISJ， 要 进行 该 模拟 
并 不 简单 (但 可 参见 Sanderson 和 Joho，2004) 。 作 为 一 个 判定 文档 数量 的 函数 ， 同 时 该 函 
数 使 用 主题 数 作为 参数 ， 可 以 对 各 种 判定 策略 的 检验 力 和 偏差 进行 度量 。 黄 金 标 准 是 采用 深 
BE k=100 的 池 ， 根 据 MAP 对 系统 进行 排名 得 到 的 。 其 他 的 文档 池 方 法 如 下 : 

。 深度 k<<100 的 浅 池 ; 
。 使 用 P@k 替代 MAP, HWRE k<100; 
。 moveto front 文档 凶 ， 停 止 前 移 条 件 是 连续 遇 到 r 个 不 相关 文档 。 

使 用 提交 到 TREC 2004 Robust Retrieval 专题 (由 249 个 主题 和 311 410 个 qrels 组 成 ) 
的 运行 实例 去 模拟 这 三 种 方法 。 为 了 评价 浅 池 和 move-to-front 文档 池 ， 选 出 的 qrels 可 用 于 


YE 一 




















PS = 


308 .第 四 部 分 评 A 


根据 MAP 对 系统 进行 排名 ， 然 后 将 排名 结果 与 黄金 标准 进行 比较 。 为 了 将 P@ 作为 将 代 
指标 进行 评价 ， 系 统 根据 P@k 而 不 是 MAP 进行 排名 ， 池 深 为 k， 仍 与 根据 MAP 排名 的 
黄金 标准 进行 比较 。 使 用 配对 t- 检 验 为 所 有 比较 对 计算 单 侧 p 值 。 把 显著 结果 (p 志 0. 05) 
所 占 的 比例 看 做 检验 力 的 估计 ， 同 时 把 显著 反 演 比较 对 所 占 的 比例 看 做 偏差 指标 。 如 果 这 个 
比例 少 于 约 一 0.05， 那 么 在 估计 的 效 度 中 ， 偏 差 是 可 忽略 因素 〈 相 比 于 随机 误差 )， 并 且 
可 以 把 它 看 做 是 不 重要 的 。 

图 12-5 展示 了 使 用 TREC 中 的 标准 浅 池 法 时 ， 采 用 不 同 的 k CD Mn (ERRO 
对 判定 工作 量 和 检验 力 〈a=0.05) WEH. y 轴 表 示 检 验 力 ，x 轴 表 示 对 于 给 定 的 %，、 达 
到 该 检验 力 时 需要 的 相关 性 判定 次 数 。 图 中 的 每 个 点 表示 不 同 的 天 值 。 由 图 12-6《 连 同 
图 12-5) 可 知 ， 当 给 定 判定 次 数 时 ，move-torfront 文档 池 的 检验 力 与 传统 的 前 & 个 文档 池 
策略 的 检验 力 相 比 差别 细微 。 另 外 ， 由 图 12-7 可 知 ， 对 于 池 深 为 的 情况 ， 根 据 PO@k 得 
到 的 排名 结果 明显 弱 于 根据 MAP 得 到 的 排名 结果 。 也 就 是 说 ， 当 给 定 相 关 性 判定 次 数 时 ， 
不 易 用 P@k 区 分 两 个 系统 。 图 12-8 展示 了 每 种 方法 的 观察 误差 ， 通 过 与 黄金 标准 作对 比 的 
显著 反 演进 行 度量 ， 作 为 一 个 判定 工作 量 的 函数 。 由 图 观察 可 知 ，move-to-front 文档 池 表 
现 出 的 偏差 明显 低 于 其 他 被 视 为 更 公平 (fair) 的 方法 。 对 于 度量 来 说 ， 观 察 的 感觉 是 无 
可 取代 的 。 
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图 12-6 ”对 move-to-front 文档 池 赋 予 不 同 的 深度 时 ， 关 于 判定 文档 数量 的 检验 力 函 数 
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图 12-7 对 浅 池 赋予 不 同 的 深度 k 且 用 P@ 替代 MAP 时 ， 
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图 12-8 浅 池 、move-torfront 文档 池 以 及 使 用 P@ k 作为 替代 
指标 来 作为 判定 效用 的 函数 上 的 偏差 。 对 a 二 0. 05 的 
情况 ， 使 用 显著 反 演 率 度量 偏差 


图 12-5 至 图 12-8 的 结合 结果 表明 ， 实 验 设计 时 使 用 更 多 的 主题 ， 同 时 对 每 个 主题 使 用 
更 少 的 判定 《 相 比 于 采用 n=50 和 天 一 100 的 TREC 标准 ) 将 会 带 来 更 高 的 效率 ， 这 也 是 
Sanderson 和 Zobel (2005) 建议 的 做 法 。 然 而 ， 他 们 并 不 同意 以 下 观点 : 采用 固定 池 深 或 一 个 
“完全 判定 ”的 指标 ， 如 P@k， 将 使 检验 力 更 高 或 偏差 更 低 。 我 们 建议 在 评价 新 的 文档 池 策 略 
和 评价 指标 时 ， 使 用 检验 力 和 偏差 分 析 蔡 代 排 名 相关 (Buckley 和 Voorhees，2004)。 


12.4.2 ”对 池 进 行 抽样 


作为 一 种 不 同 于 前 一 节 介 绍 的 选择 判定 文档 法 (ISJ 或 move-to-front 文档 池 ) 的 方法 ， 
我 们 可 以 保持 文档 池 创 建 策略 不 变 ， 但 只 对 池 中 一 个 随机 文档 子 集 进 行 判定 (而 不 是 整个 
池 )。 对 文档 池 进 行 抽样 使 得 我 们 可 以 降低 人 工 相 关 性 判定 的 次 数 ， 同 时 避免 了 偏差 。 如 果 
只 选用 文档 池 中 10 多 一 20 多 的 文档 ， 那 么 判定 工作 量 可 以 减少 1/10~1/5. 

当然 ， 没 有 对 整个 文档 池 进 行 判定 ， 就 无 法 实际 计算 AP 或 任何 基于 穷 举 相关 性 判定 这 
一 假设 的 有 效 性 指标 。 然 而 ， 我 们 可 以 基于 随机 样本 估计 (estimate) 这 些 度量 指标 。 对 于 
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AP， 有 效 性 结果 被 称 做 推断 平均 查 准 率 (inferred average precision) 或 infAP。 它 是 平均 查 
准 率 的 无 偏 估计 (Yilmaz 和 Aslam, 2008), 
回顾 平均 查 准 率 的 公式 (公式 (12-4))， 为 了 方便 ， 在 这 里 再 次 给 出 : 


| Res| 
1 . . 
AP= [Rell > relevant(i) - PQi (12-66) 


HH, | Res | 是 指 由 系统 返回 的 排名 列表 的 长 度 (对 于 TREC 实验 ,通常 为 1000 或 
10 000) ， 如 果 排 名 为 i 的 文档 是 相关 的 ， 那 么 relevant C) =1; 如 果 是 不 相关 的 ， 则 为 0。 
KERE, MENE i 个 文档 被 判定 (judged) 为 相关 时 ， 才 有 relevant《1i) 二 1。 类 似 可 得 ， 
Rel 是 被 判定 Gudged) 为 相关 的 文档 的 集合 。 

为 了 计算 infAP， 用 期 望 P@i 替代 PO: 


|Res| | 
infAP = ， 2 relevant(i) - E[P@i] (12-67) 
这 条 公式 中 的 期 望 P@i 可 以 用 以 下 方式 计算 : 首先 考虑 排名 为 i 的 文档 。 我 们 可 以 假设 
relevant(i) 二 1， 否 则 就 没有 必要 估计 P@i 了 。 因 此 ， 
一 ! .Elp@(i— 1) (12-68) 
现在 为 了 计算 B[P@(i 一 1)]， 对 排名 为 1 到 i 一 1 的 文档 逐个 进行 考虑 。 对 于 排名 为 JAS 
7 过 让 的 文档 ， 有 4 种 可 能 : 
D 如 果 在 排名 列表 中 ，j 的 排名 足够 靠 后 ， 那 么 该 文档 可 能 不 是 文档 池 的 一 部 分 ， 在 
这 种 情况 下 ， 可 以 假设 该 文档 是 不 相关 的 。 
2) 该 文档 可 能 是 文档 池 的 一 部 分 ， 但 没有 被 抽 作 样本 ， 在 这 种 情况 下 ， 认 为 还 未 对 该 
文档 进行 判定 。 
3) 该 文档 可 能 是 样本 集 的 一 部 分 且 被 判定 为 相关 。 
4) 该 文档 可 能 是 样本 集 的 一 部 分 且 被 判定 为 不 相关 。 
现在 令 Jud 为 已 判定 文档 集 ， 同 时 令 Pool 为 在 池 中 文档 组 成 的 集合 。| Jud |/| Pool | 的 值 
表示 随机 样本 集 占 整个 文档 池 的 比例 。 我 们 把 P@Ci—1) 估计 为 
_ |PooiN Res{1..i—1]| |RelN Res[1..i — 1]| 
i—i |Jud N Res{1..i — 1]| 
其 中 ResT1.. i 一 1] 指 出 现在 排名 列表 的 前 i 一 1 项 所 组 成 的 文档 集 。 公 式 的 右边 由 两 个 分 式 
组 成 。 第 一 个 代表 了 构成 部 分 池 的 前 i 一 1 个 文档 的 比例 ; 第 二 个 代表 了 前 i 一 1 个 文档 被 判 
定 为 相关 的 比例 。 第 二 个 分 式 是 包括 在 文档 池 中 的 前 i 一 1 个 文档 的 查 准 率 的 无 偏 估计 。 而 
第 一 个 分 式 是 对 这 个 估计 的 调整 ， 把 不 在 文档 池 中 的 文档 也 考虑 进来 〈 因 此 假设 这 些 文档 是 
不 相关 的 ) 。 
还 有 一 个 小 问题 ， 有 可 能 Jud 门 Res[1. . i], BAT i 一 1 个 文档 中 没有 任何 一 个 
是 已 被 判定 的 。 在 这 种 情况 下 ， 第 二 个 分 式 将 是 0/0。 为 了 解决 这 个 问题 ， 我 们 采用 平滑 
(1. 3.4 节 ) 得 到 公式 





E[P@i] = = + 


E[P@(i — 1)] (12-69) 


_ |PoolN Res|t..i— 1]| |RelN Resll..i— 1]| + € 


E[Pe( — 1) i—i [Jud Res[1. i — 1]| F 2 (12-70) 
Ep e 是 一 个 小 的 常量 。 结 合 公式 (12-68) 与 公式 〈12-70) ， 并 去 掉 ;一 1， 有 
„_ 1 |Pooln Resll..i— 1] |Reln Res{1..i — 1]| +€ - 
E|[P@i] = it i |JudA Resll..i — 1]| + 2e (12-71) 
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考虑 这 样 一 个 例子 ， 用 向 量 形式 表示 文档 的 排名 列表 
Res=(+,?,—, +, —, X, X,?, X, +, =) (12-72) 
向 量 对 排名 列表 中 排名 靠 前 的 文档 的 判定 进行 编码 ， 其 中 “十 ”表示 已 判定 相关 文档 , “一 ” 
表示 已 判定 不 相关 文档 ，“?” 表 示 在 文档 池 中 但 未 进行 判定 的 文档 ，X 表示 不 在 文档 池 中 
(文档 池 深 度 为 5) 的 文档 。 假设 e==0.000 01， 并 将 这 个 值 用 于 NIST 的 trec_evalS 程 序 。 
对 于 这 个 例子 有 
1 7 2+e 
EIPelol= 5 t i5 = ~ 0.45 (1273) 
当然 ， 在 更 接近 于 真实 的 情况 下 ， 在 这 样 的 排名 列表 中 未 判定 文档 的 相对 数量 会 更 多 。 在 传 
统 的 假设 下 ， 因 为 出 现在 列表 中 的 文档 只 有 3 个 被 判定 为 相关 文档 ， 因 此 我 们 有 P@1l0= 
0.3, EP [@10] 是 一 个 估计 值 ， 表 示 如 果 文 档 池 中 剩 下 的 文档 都 已 被 判定 了 ， 查 准 率 将 达 
到 什么 水 平 。 


12.5 ” 非 传统 的 有 效 性 指标 


12. 1 节 和 12. 2 节 中 介绍 的 传统 评价 方法 持续 地 证 明了 它们 在 信息 检索 历史 上 的 价值 。 
历年 以 来 ， 很 多 当前 标准 的 理论 和 技术 在 它们 刚 被 提出 和 改进 时 ， 都 是 采用 这 套 方法 来 证 明 
的 。 这 些 技术 包括 概率 模型 、 语 言 模型 、 随 机 差分 和 伪 相 关 反 馈 〈 所 有 这 些 都 在 第 三 部 分 中 
介绍 了 ) 。 随 着 大 文档 集 的 引入 ， 这 些 方法 起 到 了 巨大 的 作用 ， 用 于 那些 规模 和 差异 性 与 
GOV2 相当 的 文档 集 上 时 能 得 到 不 错 的 结果 。 尽 管 如 此 ， 当 面 对 最 新 的 要 求 时 ， 这 些 方法 就 
显得 力不从心 了 。 这 些 要 求 包 括 : 分 级 相关 性 判定 、 处 理 判定 丢失 以 及 包容 新 颖 性 和 多 样 
性 。 本 节 将 探讨 许多 尝试 中 的 一 些 ， 以 满足 这 些 要 求 。 


12.5.1 分 级 相关 性 


Web 的 规模 远 远大 于 最 大 的 测试 文档 集 。Web 中 包含 很 多 质量 一 般 的 网 页 ， 同 时 也 包 
含 很 多 质量 非常 好 的 网 页 。 有 些 网 页 是 具有 主动 侵害 性 的 ， 包 含 不 可 信 的 广告 或 危险 的 产 
品 ， 或 尝试 用 恶意 软件 或 病毒 感染 用 户 的 计算 机 。 从 企业 层面 来 说 ， 一 般 的 文档 管理 平台 或 
公司 内 部 网 可 能 都 比 大 部 分 的 测试 文档 集 要 大 且 更 多 样 化 。 从 个 人 层面 来 说 ， 很 多 用 户 〈 包 
括 作者 在 内 ) 都 会 在 他 们 的 个 人 存储 空间 中 维护 着 GB 级 的 邮件 和 其 他 文档 ， 规 模 很 容易 就 
相当 于 TREC 中 较 小 的 测试 文档 集 ， 且 比 它们 提供 的 内 容 要 丰富 。 

为 了 反映 一 个 给 定 文档 对 某 个 用 户 的 需求 的 满足 程度 ， 同 时 解决 文档 质量 不 一 的 问题 ， 
可 以 采用 分 级 相关 性 代替 二 元 相关 性 。 例 如 ， 判 定 者 在 判定 文档 时 可 采用 6 级 评分 法 :“ 精 
确 ”、“ 很 好 ”、“ 较 好 ”、“ 一 般 ”、“ 差 ”、“ 极 差 ”(Najork 等 人 ，2007) 。 在 这 个 评分 法 则 中 ， 
“ 差 ” 相 应 于 “不 相关 ”， 而 “ 极 差 ”表明 文档 内 容 是 怀 有 恶意 的 ， 或 是 误导 人 的 ， 其 他 的 等 
级 表示 不 同 的 相关 程度 。 

分 级 相关 性 评定 在 混合 导航 /信息 检索 任务 中 特别 有 用 〈 关 于 这 种 检索 类 型 的 详细 介绍 ， 
请 参见 15. 2 节 )。 例 如 ， 考 虑 检索 查询 “IBM”。 对 于 这 个 查询 ，IBM 的 维基 百科 网 页 上 提 
供 关 于 该 公司 的 有 价值 的 信息 ， 可 认为 这 个 网 页 的 质量 是 “ 较 好 ”或 “很 好 ”， 而 IBM 的 官 
方 网 站 www.ibm.com 必然 就 是 “非常 好 ”了 。 
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归 一 化 惩罚 累积 增益 DCO 评价 方法 直接 利用 了 分 级 相关 性 判定 的 优点 (Jirvelin 
和 Kekalainen，2002)。 该 方法 将 排名 结果 列表 的 相关 性 值 与 “理想 ”结果 列表 的 值 进行 比 
较 ， 其 中 “理想 ”结果 列表 通过 如 下 方式 获得 ， 首 先 对 全 部 最 可 能 相关 的 文档 进行 排名 ， 然 
后 对 全 部 次 最 可 能 相关 的 文档 进行 排名 ， 如 此 类 推 。 为 了 计算 nDCG， 必 须 对 每 个 相关 性 评 
分 等 级 赋予 一 个 增益 值 〈gain value)。 这 些 增益 值 把 相关 性 评分 等 级 映射 到 一 个 可 用 于 计算 
评分 的 数值 。 选 择 增益 值 时 ， 应 该 让 其 反映 出 各 个 评分 等 级 间 的 相对 差异 。 例 如 ， 假 设 评价 
文档 时 采用 四 级 评分 制 :“ 高 度 相 关 ”、“ 相 关 ”、“ 基 本 相关 ”和 “不 相关 ”。 我 们 可 以 选择 如 
下 的 增益 值 

高 度 相关 一 10 


相关 一 5 
基本 相关 一 1 
不 相关 一 0 


给 定 文档 的 排名 列表 ， 计 算 nDCG 的 第 一 步 是 构造 一 个 增益 向 量 (gain vector) G。 例 

如 ， 假 设 排名 列表 的 前 6 个 文档 的 判定 如 下 ，《〈1) 相关 ， (2) 高 度 相 关 ， (3) 不 相关 ， 

(4) 相关 ，(5) 基本 相关 ，(6) 高 度 相 关 。 其 余 文 档 均 不 相关 。 这 个 列表 对 应 的 增益 向 量 是 

G=(5,10,0,5,1,10,0,05°**) (12-74) 

计算 nDCG 的 第 二 步 是 计算 累积 增益 向 量 (cumulative gain vector) CG, CG 中 第 个 
元 素 的 值 是 G 中 第 1 一 上 个 元 素 的 总 和 


CGIk] = Soci (12-75) 


对 于 我 们 的 例子 有 
CG=(5,15,15,20,21,31,31,31,°**) (12-76) 
在 计算 累积 增益 函数 前 ， 先 对 每 个 排名 采用 一 个 无 罚 函数 来 惩罚 排名 较 低 的 文档 ， 以 此 
反映 要 找到 这 些 文档 ， 用 户 需 要 付出 的 额外 工作 量 。 这 个 惩 昼 反映 了 用 户 不 大 愿意 查看 排名 
较 低 的 文档 ， 因 为 这 将 需要 更 多 的 时 间 而 且 更 麻烦 。 尽管 可 以 采用 其 他 的 惩罚 函数 ， 但 一 般 
都 采用 log, (1 十 i)， 因 为 这 可 以 更 好 地 反映 出 用 户 的 工作 量 (Jiarvelin 和 Kekäläinen, 
2002) 。 这 个 德 罚 累积 增益 (discounted cumulative gain) 定义 如 下 : 





k . 
Gl _ 
Decik= 2, CE (12-77) 
”对 于 我 们 的 例子 有 
DCG= (5, 0,11. 3,11. 3,13. 5,13. 8,17.4,17.4,17.4,.…» (12-78) 


下 一 步 就 是 针对 “理想 ”增益 向 量 对 惩罚 累积 增益 向 量 进行 归 一 化 。 理 想 排名 就 是 在 各 
级 评分 上 最 大 化 累积 增益 后 的 顺序 。 假 设 文档 集中 包含 两 个 高 度 相 关 的 文档 ， 两 个 相关 文 
档 ， 以 及 两 个 基本 相关 文档 。 其 余 的 文档 都 是 不 相关 的 。 因 此 ， 理 想 增 益 向 量 为 


G' 一 (10,10,5,5,1,1,0;0，…》 (12-79) 
理想 累积 增益 向 量 是 
CG’= (10,20,25,30,31,32,32,32,.""》 (12-80) 
同时， 理想 惩罚 暴 积 增益 向 量 是 
DCG’= (10. 0,16. 3,18. 8,21.0,21.3,21.7,21.7,21.7,.") (12-81) 


计算 nDCG 的 最 后 一 步 就 是 用 理想 惩罚 累积 增益 向 量 归 一 化 惩罚 累积 增益 : 
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_ DCG[ k 
nDCGLk I= CGTk] (12-82) 
对 于 我 们 的 例子 有 
nDCG= (0. 50,0. 69,0, 60,0. 64,0. 65,0. 80,0. 80,0. 80,...) (12-83) 


通过 求 主题 集中 的 各 个 主题 的 nDCG 值 的 算术 平均 ， 得 到 某 个 主题 集 的 nDCG ， 这 也 是 在 信 
息 检 索 评价 方法 中 很 常见 的 做 法 。 类 似 于 查 准 率 和 查 全 率 ， 通 常 根 据 不 同 的 检索 深度 报告 
nDCG。 在 我 们 的 例子 中 ，nDCG@4 二 0. 64 以 及 nDCG@8=0. 80, 

nDCG 评价 方法 是 Web 检索 的 常用 方法 ， 因 为 Web 中 的 网 页 质量 参差 不 齐 ， 且 存在 大 
量 或 多 或 少 相 关 的 网 页 (Najork 等 人 ，2007)。 该 方法 也 被 应 用 于 XML 信息 检索 评价 中 
(参见 16.54). IRT nDCG, CG 和 DCG 都 可 以 作为 评价 方法 直接 使 用 。 一 个 基于 Web 检 
索 结 果 的 研究 结果 表明 (由 Al-Maskari 等 人 提供 ，2007) CG 和 DCG HE nDCG 更 好 地 反映 
了 用 户 的 满意 度 。 


125.2 不 完整 判定 和 偏差 判定 


未 判定 文档 为 大 部 分 有 效 性 带 来 了 一 个 问题 。 当 重用 大 的 测试 文档 集 时 ， 不 管 是 测试 新 
的 评价 方法 还 是 调整 某 个 已 知 方法 ， 未 判定 文档 ( 即 不 在 文档 池 中 的 文档 ) 可 能 会 出 现在 高 
排名 的 位 置 上 。 按 照 惯例 ， 认 为 这 些 文档 是 不 相关 的 〈 参 见 12. 2 节 )。 实 际 上 ， 如 果 判 定 者 
遇 到 这 些 文档 ， 可 能 很 多 已 经 被 判定 为 是 相关 的 。 因 此 ， 文 档 池 方 法 对 那些 没有 对 文档 池 贡 
献 的 运行 实例 存在 固有 偏差 。 当 重用 测试 集 时 ， 这 个 偏差 将 会 扭曲 关于 运行 实例 的 相对 质量 
的 结果 ， 并 导致 得 出 不 正确 的 结论 。 

大 部 分 处 理 不 完整 判定 的 方法 假设 一 个 无 偏 (unbiased) 样本 ， 在 该 样本 中 任 一 系统 或 
方法 都 不 比 其 他 的 具有 优势 。 例 如 ， 推 断 平 均 查 准 率 〈 参 见 12. 4. 2 节 ) 允许 我 们 在 不 对 整 
个 文档 池 进 行 判定 的 情况 下 评价 有 效 性 ， 但 该 方法 要 求 有 一 个 无 偏 样本 来 对 各 级 查 准 率 进 行 
无 偏 估计 。 

在 面 对 不 完整 和 有 偏差 的 判定 时 进行 有 效 性 评价 的 能 力 具 有 重大 的 现实 意义 。 处 理 丢失 
判定 的 能 力也 是 当前 在 动态 文档 集 上 进行 信息 检索 评价 所 必 备 的 。 在 规模 较 大 的 动态 文档 集 
上 的 实验 通常 会 磁 到 未 判定 文档 。 在 很 多 情况 下 ， 由 于 时 间 和 费用 的 限制 ， 我 们 不 能 根据 要 
求 对 这 些 文档 进行 判定 以 修补 测试 文档 集 上 的 漏洞 。 例 如 ，Web 搜索 服务 的 经 营 者 可 能 会 
通过 周期 性 地 在 它 的 搜索 引擎 上 运行 一 个 固定 的 查询 集 来 评价 该 引擎 的 性 能 。 尽 管 息 虫 不 断 
地 往 文档 集中 加 入 新 的 网 页 ， 同 时 这 些 网 页 的 判定 结果 可 能 还 不 存在 ， 但 是 当 我 们 将 今天 得 
到 的 有 效 性 结果 与 昨天 的 结果 进行 对 比 时 ， 我 们 依然 能 获得 有 意义 的 对 比 结果 。 

尽管 不 完整 和 有 偏差 的 判定 所 引起 的 问题 很 重要 ,但 用 于 解决 这 个 问题 的 相关 工作 很 
少 。 在 这 些 工作 中 ， 有 几 个 研究 表明 : 在 系统 排名 稳定 性 上 ， 排 名 效果 Crank effective- 
ness) 指标 或 RankEff 这 一 评价 指标 的 性 能 要 比 其 他 的 建议 指标 好 (Biittcher 等 人 ，2007; 
Ahlgren 和 Gronqvist，2008) 。 这 个 稳定 性 表明 ， 如 果 一 个 信息 检索 系统 的 RankEff 要 优 于 
另 一 系统 ， 那 么 在 判定 完整 的 情况 下 ， 关 于 它们 的 传统 指标 展现 出 的 优 劣 也 一 样 。 然 而 ， 要 
注意 : 这 一 稳定 性 的 性 质 不 是 绝对 成 立 的 ， 随 着 丢失 的 判定 数量 的 增加 ， 它 的 确信 度 下 降 。 

RankEff 的 公式 使 我 们 想起 了 平均 查 准 率 的 公式 (公式 (12-4))， 除 了 平均 查 准 率 的 公 
式 忽略 了 未 判定 文档 : 

| Res| 


o 1l . _ [Res{1..i] N Non| 
RankEff = Tai 2 relevant (i) (1 iNo (12-84) 
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如 果 排 名 为 i 的 文档 被 判定 为 相关 ， 则 有 relevant(1i) 二 1， 如 果 不 相 关 ， 则 为 0。 在 这 
条 公式 中 ，Rel 是 被 判定 为 相关 的 文档 所 组 成 的 集合 ，Non 是 被 判定 为 不 相关 的 文档 所 组 
成 的 集合 ，Res[1. . 表示 出 现在 排名 列表 前 位 的 文档 所 组 成 的 集合 。 
| Res[1..i] N Non} 
| Non] 
的 值 实质 上 就 是 已 判定 不 相关 (judged nonrelevant) 文档 的 recall@i。 对 于 排名 列表 中 的 
已 判定 相关 文档 ， 利 用 排名 比 它们 靠 前 的 已 判定 不 相关 文档 所 占 的 比例 对 它们 做 惩罚 。 这 条 
公式 把 没有 出 现在 Res 中 的 已 判定 相关 文档 看 做 出 现在 所 有 已 判定 不 相关 文档 的 后 面 ， 因 
此 对 评分 没有 任何 贡献 。 
考虑 这 样 一 个 例子 : 用 向 量 形式 表示 文档 的 排名 列表 
Res 二 (十 ,?, 一 ,十 ,一 ?,?,?,?, 十 》 (12-86) 
向 量 对 排名 列表 中 排名 前 10 位 的 文档 的 判定 进行 编码 ， 其 中 “十 ”表示 已 判定 相关 文档 ， 
“一 ”表示 已 判定 不 相关 文档 ，“?” 表 示 未 判定 文档 。 假 设 有 4 个 已 判定 相关 文档 (| Rel| =4) 
以 及 6 个 已 判定 不 相关 文档 (| Non | 二 6)。 然 后 计算 RankEff 
L. ((-g) +g) + (I$) aor. 625 (12-87) 
为 了 进行 比较 ， 该 向 量 的 AP 值 为 


1 1 2 3、9 _ 
天， (1 十 4 十 10) 一 20 一 0 450 (12-88) 


(12-85) 





12.5.3 ”新 颖 性 和 多 样 性 


经 典 的 信息 检索 评价 方法 假设 每 个 文档 的 相关 性 是 独立 于 其 他 文档 而 判定 的 ， 并 且 鼓 励 
元 余 。 假 设 一 个 测试 集 里 包含 大 量 几乎 相同 的 文档 〈 很 多 文档 就 是 完全 相同 的 ) 。 如 果 这 些 
文档 中 有 一 个 是 相关 的 ， 那 它们 全 部 都 是 相关 的 。 如 果 返 回 的 结果 中 ， 它 们 全 部 出 现在 排名 
靠 前 的 位 置 上 ， 这 将 导致 使 用 经 典 评价 方法 得 到 的 评分 值 较 高 ， 如 AP， 但 这 种 做 法 肯定 不 
受 实际 用 户 的 欢迎 。 尤 其 对 于 从 Web 中 抓 取 回 的 文档 集 ， 更 会 有 这 样 的 问题 。Bernstein 和 
Zobel (2005) 研究 了 在 GOV2 文档 集 上 近似 重复 的 文档 的 数量 ， 并 发 现 该 文档 集中 超过 
17% 的 文档 与 其 他 文档 是 基本 重复 的 。 权 宜 的 办 法 就 是 删 去 文档 集中 的 重复 文档 ， 但 这 仅仅 
是 在 回避 这 个 问题 而 已 。 取 而 代 之 的 是 ， 评 价 方法 本 身 应 该 直接 把 重复 文档 的 概率 考虑 进 
去 ， 对 那些 能 提供 新 颖 (novel) 信息 的 文档 进行 奖励 ， 而 不 是 奖励 那些 重复 提供 用 户 已 知 
的 前 面 的 《 即 排名 更 高 的 文档 。 

经 典 信息 检索 评价 的 另外 一 个 有 问题 的 假设 是 ， 相关 性 是 根据 一 个 由 主题 所 表达 的 详细 
说 明 的 信息 需求 进行 判定 的 。 细 看 图 1-8 中 的 TREC 主题 426， 该 主题 期 望 把 它 的 标题 
(“law enforcerment, dogs”) 作为 查询 。 在 那些 专门 设计 的 经 典 评价 实验 中 ， 对 这 个 查询 的 
一 种 理解 是 ， 仅 当 文 档 提供 的 “信息 是 关于 全 球 用 于 执法 的 狗 ” 时 ， 才 认为 该 文档 是 相关 
的 。 然 而 ， 由 8. 6. 2 节 中 的 例子 可 以 知道 ， 对 于 这 个 查询 有 第 二 种 理解 ， 一 个 关于 狗 执法 信 
息 〔 如 规章 制度 的 约束 ) 的 请 求 。 尽 管 第 二 种 理解 是 完全 合理 的 ， 并 且 可 能 一 个 实际 用 户 也 
是 这 么 期 望 的 ， 但 是 反映 了 这 种 理解 的 文档 将 被 判定 为 不 相关 。 要 知道 ， 只 要 简单 地 改变 一 
下 描述 或 说 明 ， 我 们 就 能 从 一 种 理解 转变 到 另 一 种 理解 了 〈 从 一 种 相对 容易 理解 的 查询 转变 
为 一 种 相对 难以 理解 的 查询 )。 在 写 这 本 书 的 时 候 ， 我 将 这 个 查询 输入 到 Web 搜索 引擎 ， 得 
到 的 返回 结果 中 包含 各 种 文档 ， 但 却 主要 偏向 于 第 一 种 理解。 
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这 个 查询 的 解释 都 可 能 对 应 某 个 用 户 的 信息 需求 所 指定 的 方式 。 例 如 ， 某 个 用 户 可 能 只 
关心 关于 狗 执行 禁毒 法 的 信息 ; 另外 一 个 用 户 可 能 只 关心 关于 他 们 社区 的 规章 制度 的 约束 。 
理想 情况 下 ， 一 个 信息 检索 系统 所 返回 的 结果 会 反映 出 查询 中 的 内 在 歧义 ， 并 让 这 些 结果 尽 
可 能 地 和 覆盖 所 有 的 方面 。 为 了 满足 这 个 要 求 ， 有 效 性 评价 方法 应 该 在 检索 结果 中 合理 地 奖励 
多 样 性 (diversity). 

对 于 一 个 给 定 的 查询 ， 信 息 检 索 系 统 返回 的 排名 列表 应 该 能 反映 出 查询 中 的 有 用 信息 的 
广度 以 及 查询 中 的 任何 内 在 歧义 。 查 询 “jaguar” 【美洲 豹 一 一 译 者 注 ) 就 是 模糊 查询 的 一 
个 标准 例子 。 信 息 检 索 系 统 响 应 这 个 查询 时 ， 最 好 能 返回 多 种 文档 ， 其 中 包含 讨论 车 、 锡 以 
及 经 典 的 Fender 吉他 的 文档 。 把 所 有 这 些 文档 组 合 起 来 ， 应 该 能 涵盖 所 有 的 理解 方式 。 理 
想 情况 下 ， 由 这 个 查询 得 到 的 文档 有 序 表 应 该 合理 地 把 所 有 用 户 的 兴趣 考虑 进去 。 如 果 车 比 
HECK, AEE: 在 转换 主题 前 把 前 几 个 文档 返回 给 用 户 。 排 名 较 前 的 文档 可 能 
涵盖 了 各 个 主题 的 主要 方面 。 排 名 较 后 的 文档 应 该 对 这 些 基本 信息 作 补充 ， 而 不 是 不 断 地 重 
复 同 样 地 内 容 。 

在 描述 一 个 同时 考虑 了 新 颖 性 和 多 样 性 的 评价 方法 前 ， 我 们 先 介绍 两 个 来 自 Clarke 等 
人 (2008) 的 例子 作为 引入 该 方法 的 动机 。 第 一 个 例子 是 一 个 Web 检索 的 例子 。 第 二 个 例 
子 基 于 一 个 在 TREC 2005 上 进行 的 实验 性 的 问答 任务 (Voorhees 和 Dang, 2005). 

1. Web 检索 例子 

R 12-11 展示 了 关于 Web 查询 “UPS” 的 前 10 个 结果 中 的 5 个， 是 在 撰写 本 书 期 间 由 
一 个 商用 搜索 引擎 获 返回 的 。 我 们 保留 了 由 搜索 引擎 指定 的 文档 顺序 ， 但 去 掉 了 一 些 结果 使 
例子 更 精简 。 模 糊 性 是 明显 的 。 当 一 个 用 户 输入 这 个 查询 时 ， 他 可 能 想 追 踪 由 联邦 包 计 服务 
公司 送出 的 包 襄 ， 计 划 购 买 一 个 不 间断 电源 ， 或 检索 普 吉 特 湾 大 学 的 主页 。 该 缩写 的 正确 扩 
展 与 用 户 的 需求 有 关 。 


R 12-11 对 于 Web 查询 “UPS” 可 能 返回 的 结果 ， 其 中 涵盖 了 对 该 查询 的 各 种 理解 





排名 网 页 标题 URL 
1 UPS 全 球 首页 www. ups. com 
2 快件 信息 追踪 www. ups, com/tracking/tracking, html 
3 不 间断 电源 en. wikipedia. org/wiki/Uninterruptible_power:-- 
4 The UPS Store: Retail packing, shipping, *** www. theupsstore, com 
5 普 吉 特 湾 大 学 :主页 www. ups, edu 


这 很 难说 这 五 个 网 页 中 的 任何 一 个 要 比 其 他 的 更 相关 。 对 于 这 些 网 页 ， 总 有 一 群 用 户 认 
为 其 中 一 个 是 最 好 的 结果 。 在 经 典 的 评价 方法 中 ， 相 关 性 判定 会 依赖 于 主题 说 明 的 细节 ， 这 
些 细节 对 信息 检索 系统 来 说 是 不 可 见 的。 根据 这 些 不 可 见 的 细节 ， 这 些 文档 中 的 任何 文档 都 
可 能 被 判 为 是 相关 的 或 不 相关 的 。 因 为 这 个 查询 具有 明显 的 模糊 性 ， 一 个 基于 这 个 查询 的 主 
题 很 自然 地 不 会 被 TREC 所 接受 ， 因 此 使 得 这 样 的 问题 得 以 避免 。 遗 憾 的 是 ， 这 样 的 问题 
在 实际 中 是 不 可 避免 的 。 

一 种 可 能 的 排名 这 些 网 页 的 方法 是 根据 认为 这 些 网 页 是 相关 的 可 能 的 用 户 组 的 相对 大 小 
对 网 页 进行 排名 。 和 赁 猜测 ， 对 联邦 包 衷 服务 公司 感 兴趣 的 用 户 群 要 远 远 大 于 对 普 吉 特 湾 大 学 
感 兴趣 的 用 户 群 ， 即 使 在 华盛顿 州 内 也 是 这 样 。 对 不 间断 电源 感 兴趣 的 用 户 数 应 该 介 于 这 两 
者 之 间 。 表 12-11 中 的 顺序 与 这 一 猜测 一 致 。 但 要 注意 到 一 个 关于 不 间断 电源 的 网 页 (#3) 
落 在 两 个 关于 联邦 包 囊 服 务 公 司 的 网 页 之 间 。 假 设 对 不 间断 电源 感 兴趣 的 用 户 构 成 了 其 中 一 
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个 多 元 化 用 户 群 ， 且 继续 在 该 点 上 浏览 结果 ，、 那 么 这 是 合理 的 。 对 于 第 五 个 结果 ， 对 大 学 感 
兴趣 的 用 户 可 能 构成 了 另 一 个 多 元 化 用 户 群 。 因 此 ， 结 果 中 的 多 样 性 直接 根据 用 户 群 的 需求 
进行 处 理 。 

假设 表 12-11 给 出 了 最 优 的 排名 〈 可 能 不 是 )， 可 以 对 它 进行 非 正 式 且 直观 的 调整 。 我 
们 的 评价 方法 可 以 通过 精确 地 对 这 个 排名 赋予 最 高 的 评分 来 反映 这 种 直观 性 。 

2. 问答 例子 

第 二 个 例子 基于 一 个 来 自 TREC 2005 上 的 问答 任务 的 主题 (Voorhees 和 Dang, 
2005) 。 相 比 于 传统 检索 任务 ， 问 答 (QA) 的 目标 是 为 某 个 具体 问题 返回 确切 答案 ， 常 常 
通过 组 合 来 自 不 同 源 的 信息 来 实现 。 在 TREC 2005 任务 中 ， 癌 题 被 分 为 多 个 系列 ， 且 每 个 
系列 都 与 一 个 目标 相关 联 。 参 与 的 系统 都 能 获得 该 目标 以 及 问题 ， 并 且 应 为 每 个 问题 返回 一 
个 答案 。 表 12-12 给 出 了 主题 85 的 目标 和 问题 ;“ 挪 威 邮 轮 公 司 (NCL)”。 


表 12-12 TREC 2005 问答 主题 85。 主 题 由 多 个 问题 组 成 ， 每 个 问题 关注 整个 主题 的 某 一 方面 
85: 挪威 邮轮 公司 
85.1: 给 NCL 的 船 命名 
85.2: 在 1999 年 ， 哪 一 家 邮轮 公司 尝试 接管 NCL? 
85.3: NCL 的 私人 岛屿 名 称 是 什么 ? 
85.4; NCL 在 邮轮 公司 中 按 规模 排名 是 多 少 ? 
85.5: 为 什么 Grand Cayman 避 开 一 稻 NCL 的 邮轮 ? 
85.6: NCL 发 起 的 所 谓 主题 邮轮 


我 们 可 以 从 不 同 的 角度 看 待 这 个 主题 ， 把 目标 看 做 查询 ， 同 时 把 问题 看 做 一 个 用 户 可 能 
寻求 的 具体 信息 块 的 表示 或 例子 。 表 12-13 中 的 结果 是 把 目标 看 做 查询 ， 同 时 采用 Wumpus 
实现 的 BM25 评分 公式 得 到 。 语 料 库 与 TREC 2005 QA 任务 中 的 一 样 ， 由 新 闻 文 章 组 成 。 
前 10 个 文档 的 标题 如 表 12-13 中 所 示 。 对 于 每 篇 文章 ， 表 中 都 指示 了 根据 官方 的 TREC Al 
定 ， 它 是 否 能 回答 该 问题 。 对 于 这 个 例子 而 言 ， 如 果 一 篇 文章 列 出 了 任何 NCL 船只 的 名 字 ， 
我 们 就 认为 它 能 回答 问题 85. 1。 最 后 一 列 给 出 了 能 回答 的 问题 的 总 数 。 


表 12-13 查询 “挪威 邮轮 公司 (NCL)” BM25 返回 的 前 10 个 结果 ， 检 索 的 文档 集 为 
TREC 2005 QA 任务 语料库 。 对 能 回答 问题 的 每 个 文档 进行 了 标记 


文档 标题 85.1 85.2 85.3 85.4 85.5 85.6 


. Carnival Re-Enters Norway Bidding x xX 
. NORWEGIAN CRUISE LINE SAYS… X 
Carnival, Star Increase NCL Stake X 
. Carnival, Star Solidify Control 
HOUSTON CRUISE INDUSTRY GETS… X X 
TRAVELERS WIN IN CRUISE- 
. ARMCHAIR QUARTERBACKS NEED-- X 
. EUROPE, CHRISTMAS ON SALE X 
TRAVEL DEALS AND DISGOUNTS 
HAVE IT YOUR WAY ON THIS SHIP 


et 
+ 





"mo Ao oe p 
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尽管 这 些 问 题 肯定 不 能 涵盖 一 个 主题 的 所 有 方面 ， 但 我 们 可 以 把 它们 看 做 一 个 合理 的 代 
表 。 从 这 个 观点 出 发 ， 我 们 可 以 将 所 有 的 文档 相关 性 基于 这 些 问 题 来 判定 ， 把 回答 的 问题 数 
作为 分 级 的 相关 性 分 值 。 因 此 ， 如 果 我 们 只 考虑 文档 能 回答 的 问题 数 ， 一 个 关于 文档 的 “ 理 
想 ” 排 名 就 是 a-e-b-cf-g-h-d-i-i-d， 能 回答 2 个 问题 的 文档 要 比 只 能 回答 一 个 问题 的 文档 排 
SER 
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如 果 我 们 同时 考虑 新 颖 性 ， 理 想 排名 将 把 文档 g 放 到 第 三 位 ， 高 于 其 他 只 回答 了 一 个 问 
题 的 文档 ， 这 是 因为 只 有 文档 g 回答 了 问题 85. 3。 此 外 ， 除 了 没有 被 任何 文档 回答 的 问题 
85. 5 外 ，a-e-g 排名 回答 了 所 有 问题 。 可 以 认为 其 他 文档 是 不 相关 的 ， 因 为 它们 没有 增添 任 
何 新 信息 。 然 而 ， 因 为 其 他 文档 可 能 包含 了 超出 问题 范围 的 方面 ， 我 们 不 应 该 在 第 三 个 文档 
就 停 住 了 。 另 外 ， 状 定 可 能 包含 错误 ， 或 文档 也 许 不 能 完全 回答 一 个 指定 问题 。 给 定 已 知 信 
息 ， 我 们 可 以 通过 考虑 每 个 问题 被 回答 的 次 数 完 成 文档 排名 。 文 档 b (回答 了 问题 85. 2〉 可 
以 排 在 文档 g 后 面 ， 紧 跟 其 后 的 是 文档 { (回答 了 问题 85. 1) ， 然 后 是 文档 c 和 h (第 三 次 回 
答 了 这 些 问 题 ) 。 最 终 的 排名 是 a-e-g-b-f-c-h-ij-d，。 

3. 评价 新 颖 性 和 多 样 性 

新 颖 性 和 多 样 性 的 有 效 性 指标 的 发 展 和 验证 仍 是 一 个 开放 的 研究 问题 。 下 面 我 们 介绍 一 
种 由 Clarke A (2008) 提出 的 指标 。 其 他 方法 将 在 延伸 阅读 中 提 及 。 

为 了 概括 上 面 的 例子 ， 我 们 可 以 考虑 一 个 表示 为 金 块 Cnugget) 集 的 信息 需求 。 从 概念 
上 说 ， 一 块 金 块 表示 一 个 与 信息 需求 相关 的 具体 事实 ， 或 某 个 具体 问题 的 答案 。 它 也 可 表示 
一 个 结构 或 导航 要 求 ， 指 示 一 个 文档 属于 某 个 具体 的 文档 集 ， 是 在 某 个 具体 时 段 写 的 或 出 现 
在 某 个 具体 的 Web 网 站 中 。 然 后 ， 根 据 文档 包含 的 金 块 数 赋予 相应 的 分 级 相关 性 分 值 ， 金 
块 数 越 多 越 好 。 除 此 之 外 ， 给 定 一 个 文档 的 排名 列表 ， 如 果 一 块 金 块 出 现在 一 个 文档 中 ， 那 
它 在 后 面 文 档 的 分 值 可 能 要 降低 ， 因 此 ， 相 比 于 多 样 性 ， 更 偏向 于 新 颖 性 。 在 获得 分 级 相关 
性 分 值 后 ， 可 采用 如 nDCG 这 样 的 评价 方法 度量 有 效 性 。 使 用 这 些 增益 值 的 扩展 nDCG 被 
称 做 a-nDCG。 . 

更 正式 的 说 法 是 ， 我 们 使 用 金 块 集 (ni ，…，nm》 对 用 户 信息 需求 进行 建 模 。 给 定 文 
档 《qi;，ds，…〉 的 排名 列表 ， 如 果 判 定 文档 di 包含 金 块 %n;， 则 令 Ndi.np=1; 否则 ， 
NCd;,n;) 二 0。 因 此 文档 d: 包含 金 块 的 数量 为 


SO N(di,n;) (12-89) 
j=i 


如 果 不 管 元 余 ， 那 么 可 以 直接 把 这 个 数值 用 作 分 级 相关 性 分 值 。 然 而 ， 随 着 我 们 深入 研 
究 排名 列表 ， 我 们 可 能 希望 随 着 金 块 的 重复 来 调整 这 个 数值 ， 以 反映 元 余 信息 的 价值 在 下 
降 。 为 了 进行 这 个 调整 ， 我 们 首先 定义 

k-1 


rik-1=>_ N(di,n;) (12-90) 


i=1 
为 排名 在 前 一 1 个 的 文档 中 被 判定 包含 金 块 n; 的 文档 的 数量 。 为 了 方便 ， 我 们 定义 
Tio 一 0。 然后 我 们 定义 增益 向 量 G 中 的 第 个 元 素 为 


GIk]= XD N (dk, nj)" (12-91) 


j=l 
其 中 ，c 是 一 个 常量 ，0<a< 委 1。 这 个 常量 表示 由 于 金 块 重复 而 导致 的 增益 值 的 减少 。 例 如 ， 
如 果 我 们 令 a 二 1/2， 那 么 表 12-13 的 有 序列 表 的 增益 向 量 为 
G= (2, 3, 4,0,2,5,1,3,-) (12-92) 

在 这 个 例子 中 ， 每 个 文档 平分 了 所 包含 金 块 的 增益 值 。 当 一 1 时 ， 无 论 金 块 重复 出 现 多 少 
次 ， 增 益 值 保持 不 变 。 当 a 二 0 时 ， 金 块 出 现 一 次 后 ， 增 益 值 就 减 为 0。 

现在 ，nDCG 的 计算 就 可 以 用 12. 5. 1 节 描 述 的 方法 。 为 了 进行 归 一 化 ， 理 想 有 序 表 就 
是 各 个 级 别 的 最 大 化 累积 增益 值 的 顺序 。 对 于 我 们 的 例子 ， 理 想 有 序 表 是 eg bfehijd, 
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同时 相应 的 增益 向 量 是 
G’=(2,2,1,4,3,4,4,...) (12-93) 


12.6 延伸 阅读 


第 一 个 信息 检索 测试 集 是 由 Cyril Cleverdon 以 及 他 的 同事 一 起 在 20 世纪 60 年 代 创建 
的 ， 这 是 Cranfield 检验 (Cleverdon, 1967) 里 一 系列 实验 的 一 部 分 。 通 过 使 用 一 个 固定 的 
由 文档 、 查 询 以 及 人 工 判定 组 成 的 集合 的 基本 信息 检索 系统 评价 方法 一 般 被 称 为 Cranfield 
范式 (Cranfield paradigm) 。 这 个 方法 早 在 20 世纪 90 年 代 初 就 被 TREC 所 采用 ， 并 在 后 来 
扩展 到 大 文档 集 上 〈 规 模 超 过 GB 级 )。TREC 以 及 它 使 用 Cranfield 范式 的 历史 可 以 参考 
Voorhees 和 Harman (2005), 

在 信息 检索 评价 中 统计 方法 的 合理 使 用 一 直 是 争论 不 体 的 话题 。 本 章 中 介绍 的 一 些 统计 
方法 在 如 医药 这 些 领域 中 已 成 为 了 标准 ， 但 在 信息 检索 领域 中 还 没有 得 到 普遍 使 用 。Sand- 
erson 和 Zobel (2005) 研究 了 统计 检验 在 信息 检索 中 的 使 用 ， 并 得 出 结论 ， 对 大 量 的 主题 
进行 浅 判定 要 比 对 少量 主题 进行 深 判 定好 。Webber 等 人 2008b) 通过 对 信息 检索 系统 两 
两 进行 比较 的 实验 ， 即 一 个 关于 效果 量 、 主 题 数 以 及 池 深 的 函数 ， 来 评价 统计 检验 的 检验 
力 。 通 过 这 些 实 验 ， 他 们 推 知 : 在 对 TREC 2004 Robust 专题 上 的 系统 两 两 进行 对 比 以 找 出 
它们 之 间 的 区 别 时 ， 采 用 主题 数 为 617 ARE K=O 时 ， 能 得 到 80 多 的 检验 力 ， 这 与 图 
12-5 相符 。Smucker $A (2007) 使 用 随机 化 检验 作为 黄金 标准 来 评价 t- 检 验 、 符 号 检验 、 
Wilcoxon 检验 以 及 bootstrap。 他 们 得 出 结论 随机 化 检验 、t- 检 验 以 及 bootstrap 计算 得 到 
的 p- 值 相近 ， 而 其 他 检验 的 p- 值 差别 巨大 。Thomas (1997) 讨论 了 信息 检索 领域 外 的 回 尖 
性 能 力 分 析 的 争议 性 ， 并 比较 了 用 于 计算 回溯 性 能 力 的 方法 。 英 国医 疗 学 报 (British Medi- 
cal Journal) 中 有 很 多 关于 元 分 析 的 文章 摘要 .9 

已 经 有 很 多 通过 选择 性 判定 来 减少 判定 工作 量 的 方案 。Cormack 等 人 (1998) 研究 了 通 
过 交互 搜索 、 判 定 以 及 人 工 重 构 查询 的 过 程 来 创建 测试 集 。 他 们 的 目标 是 在 给 定 的 一 段 时 间 
内 找 出 尽量 多 的 相关 文档 。Sanderson 和 Joho (2004〉 在 这 个 方向 上 研究 得 更 深入 ， 他 们 描 
述 了 三 种 不 需 使 用 文档 池 来 创建 测试 集 的 方法 。Zobel (1998) 和 Cormack A (1998) 都 
提出 了 在 池 中 对 文档 进行 动态 排序 以 增加 下 一 个 被 判定 的 是 相关 文档 的 概率 的 方法 。Cart- 
erette 等 人 (2006) 描述 了 一 种 选择 下 一 个 判定 文档 的 算法 ， 该 算法 能 提高 判定 对 区 分 系统 
的 能 力 的 影响 。Motfat SA (2007) 基于 排名 偏差 查 准 率 (rank-biased precision) 指标 研 
究 自 适应 判定 ， 该 评价 指标 根据 文档 在 排名 列表 中 的 排名 对 它们 赋予 指数 下 降 的 权重 。 
Aslam 等 人 (2006〉 以 及 Yilmaz 和 Aslam (2008) 描述 了 包括 infAP (12. 4. 2 节 ) 的 抽样 
方法 。Yilmaz FA (2008) 对 这 些 工作 进行 了 改进 并 扩展 成 nDCG. Soboroff 等 人 (2001) 
提出 了 一 种 避免 对 全 部 文档 进行 相关 性 判定 的 有 趣 方法 。 

过 去 几 年 提出 了 大 量 的 信息 检索 评价 方法 。 有 部 分 方法 是 来 自 其 他 领域 的 ， 并 将 它 用 于 
为 信息 检索 服务 。nDCG 指标 是 首先 由 Jarvelin 和 Kekalainen (2002) 提出 并 对 其 进行 描述 
的 。 该 方法 一 提出 就 被 应 用 到 很 多 领域 中 ， 包 括 Web 检索 (Burges 等 人 ，2005; Najork 等 
人 ，2007) 和 XML 信息 检索 CAl-Maskari A, 2007). Buckley 和 Voorhees (2004) 提 
出 了 bpref 指标 ， 该 指标 在 结构 与 目的 上 均 与 RankEff 相似 。Shah 和 Croft (2004) 将 倒数 
排名 (公式 (12-5)) 评价 方法 应 用 到 评价 高 查 准 率 检索 中 ， 其 中 高 查 准 率 检索 主要 关注 在 高 
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排名 上 要 高 查 准 率 。Aslam 等 人 (2005) 提出 了 一 种 量化 有 效 性 指标 的 方法 。Moffat 和 Zo 
bel (2008) 描述 并 评价 了 一 个 基于 简单 用 户 行 为 模型 的 排名 偏差 查 准 率 。Chapelle 等 人 
(2009) 描述 了 一 种 用 于 分 级 相关 性 的 倒数 排名 指标 ， 其 中 分 级 相关 性 判定 根据 一 个 简单 的 
用 户 模型 进行 ， 且 该 用 户 模型 中 的 用 户 行为 符合 某 个 商业 搜索 引擎 的 日 志 。 

Amitay “A. (2004) 和 Biittcher 等 人 (2007) 都 提出 了 通过 提取 相关 文档 的 特征 来 创 
建 大 规模 测试 集 的 方法 ， 这 种 方法 使 得 判定 新 文档 的 工作 可 以 自动 完成 。Carterette (2007) 
正式 定义 了 可 重用 测试 集 的 概念 。Custis 和 Al-Kofahi (2007〉 考 虚 了 查询 扩展 技术 的 评价 
方法 。Webber ÆA (2008a) 研究 了 比较 测试 集 之 间 的 评分 的 方法 。Sakai 和 Kando (2008) 
研究 了 相关 性 判定 丢失 所 带 来 的 影响 。 

早 在 20 世纪 60 年 代 ， 就 有 大 量 的 研究 者 已 经 开始 研究 信息 检索 评价 中 的 新 颖 性 和 多 样 
性 〈Goffman，1964; Boyce，1982) 。Carbonell 和 Goldstein (1998) 描述 了 最 大 边界 相关 
法 (maximal marginal relevance) ， 该 方法 尝试 在 最 大 化 相关 性 的 同时 最 小 化 高 排名 文档 间 
的 相似 性 。Zhai A (2003) 提出 并 验证 了 基于 一 个 风险 最 小 化 框架 的 子 主题 检索 的 方法 ， 
同时 介绍 了 对 应 于 子 主题 检索 的 查 全 率 和 查 准 率 。Chen 和 Karger (2006) 描述 了 一 种 利用 
负 反 馈 的 检索 方法 ， 即 一 旦 结果 列表 中 包含 某 个 文档 ， 就 假设 该 文档 是 不 相关 的 ， 这 样 做 是 
为 了 实现 最 大 化 多 样 性 的 目标 。Agrawal 等 人 〈2009) 应 用 分 类 系统 去 提高 检索 结果 的 多 样 
性 ， 并 将 这 种 做 法 推广 到 几 种 传统 的 有 效 性 评价 方法 上 使 其 考虑 多 样 性 )， 包 括 nDCG、 
MAP 以 及 MRR。Spirck Jones A (200 要 求 大 家 在 提出 评价 方法 以 及 创建 测试 集 时 考 
虑 多 样 性 。Vee 等 人 《〈2008) 在 购物 检索 这 一 背景 下 考虑 多 样 性 。Vee FA (2008) 在 购物 
搜索 的 应 用 中 考虑 了 多 样 性 ; van Zwol 等 人 在 图 像 搜 索 中 考虑 了 多 样 性 。Clarke 等 人 
(2009) 将 由 Moffat 和 Zobel (2008) 提出 的 排名 偏差 精度 与 由 Clarke 4 A (2008) 和 
Agrawal 等 人 (2009) 提出 的 新 颖 性 和 多 样 性 指标 结合 在 一 起 ， 由 此 扩展 了 排名 偏差 查 准 
率 ， 使 其 通过 一 个 简单 的 用 户 需 求 和 行为 的 模型 来 考虑 未 指定 的 查询 。Carterette (2009a) 
考虑 了 为 新 颖 性 和 多 样 性 指标 计算 理想 结果 。 





12.7 练习 


练习 12. 1 在 公式 (12-71) 中 ,假设 |Jaudm Res[1..i—1]|=0. ERA, ELP@i WEE 
多 少 ? 
练习 12.2 考虑 以 向 量 形式 表示 文档 的 排名 列表 
Res 一 (0, 一 ,十 ,0, 一 ,X,0, XXX 十 ，…》 (12-94) 
其 中 ,“ 十 ”表示 一 个 已 判定 相关 文档 ,“ 一 ”表示 一 个 已 判定 不 相关 文档 ，0 表示 一 个 在 池 中 的 未 判定 文 
档 ，X 表示 不 在 池 中 的 文档 。 计 算 EL[LP@1J 和 ELP@10]. 假设 e=0. 000 01. 
练习 12.3 根据 给 定 的 增益 向 量 : 


G=(1,3,0,2,1,3,0,05++) (12-95) 
和 给 定 的 理想 增益 向 量 
G'=(3,3,2,2,2,1,1,0,.) (12-96) 
计算 nDCG 向 量 。 
练习 12. 4 考虑 以 向 量 形式 表示 文档 的 排名 列表 . 
Res=(0,—,+,0,—,0,0,0,0, +) (12-97) 


向 量 对 排名 列表 中 (列表 长 度 为 = 二 10) 的 文档 判定 进行 编码 ,其 中 “十 ”表示 已 判定 相关 文档 ,“ 一 ”表示 已 判 
定 不 相关 文档 ,0 表示 未 判定 文档 。 假 设 有 3 个 已 判定 相关 文档 (| Rel | 二 3〉 以 及 4 个 已 判定 不 相关 文档 
(| Non | 二 4)。 为 该 向 量 计算 RankEff (公式 (12-84))。 
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练习 12.5 在 商用 Web 搜索 引擎 上 搜索 以 下 模糊 的 指定 查询 : (a) “jaguar”, (b) “windows”, 
Cc) “hello”, LAR (d) “charles clarke”。 在 返回 的 前 10 个 结果 中 ， 对 这 些 查询 一 共有 多 少 种 不 同 的 理解 方式 。 
练习 12.6 ”假设 你 要 计算 一 个 指定 系统 的 MAP， 该 指定 系统 使 用 一 个 由 % 个 主题 组 成 的 集合 s， 且 该 
集合 在 置信 水 平 为 95% 的 置信 区 间 c 二 [4,4%w]J 上 的 估计 是 如。 使 用 n 个 特征 相似 但 不 同 的 主题 得 到 第 二 个 


信 计 m'。 这 里 没有 zu' 的 查 准 率 估计 。 区 间 e 包含 oa' 的 概率 是 多 少 ? 假设 mT | 。 在 没有 其 他 额外 
信息 的 情况 下 ， 计 算 置信 水 平 为 95% 且 包 含 页 的 最 小 凤 信 区 间 。 如 果 第 二 个 主题 集 的 大 小 nAn, WAR 
小 的 置信 区 间 是 什么 ? 
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第 12 章 讨论 了 搜索 引擎 有 效 性 的 度量 方法 ， 也 就 是 ， 它 们 产生 的 搜索 结果 的 质量 。 但 
是 ， 结 果 的 质量 只 是 一 个 检索 系统 整体 实用 性 中 的 一 个 指标 。 第 二 个 也 是 同样 重要 的 一 个 指 
标 是 效率 。 有 效 性 〈effectiveness) 描述 专门 为 完成 某 项 工作 而 设计 的 系统 所 完成 工作 的 好 
坏 程度 ， 而 效率 (efficiency〉 则 关注 于 工作 时 系统 的 资源 消耗 情况 。 

在 搜索 引擎 中 ， 效 率 通常 指 以 下 三 个 不 同方 面 中 的 一 个 ， 时 间 效 率 (SRD. SRR 
(需要 多 少 内 存 /磁盘 ?) 或 开销 效率 启动 和 维持 系统 运行 需要 多 少 开销 ?)。 这 三 个 方面 彼 
此 紧密 影响 。 例 如 ， 花 费 更 多 的 金钱 会 增加 系统 的 内 存 资 源 ， 但 因此 也 可 以 让 更 多 的 数据 存 
放 在 RAM 中 ， 从 而 让 系统 运行 得 更 快 ; 通过 复杂 索引 压缩 技术 ， 可 以 降低 对 内 存 的 需求 ， 
这 样 做 可 能 会 降低 全 局 开销 ， 但 是 由 于 采用 了 更 复杂 的 解压 程序 ， 因 此 可 能 会 使 查询 处 理 
变 慢 。 

本 章 将 主要 讨论 时 间 效 率 ， 因 为 时 间 效 率 是 用 户 唯 一 可 感 党 的 指标 ， 甚 至 也 可 以 将 它 看 
做 是 有 效 性 的 一 个 方面 ， 越 快 越 好 〈 多 数 情况 下 )。 贯 穿 本 章 ， 我 们 将 性 能 (performance) 
等 同 于 时 间 效 率 (time efficiency)， 并 把 它们 作为 评价 查询 速度 的 标准 〈 如 ， 秒 /查询 ， 查 
询 / 秒 ) 。 

本 章 由 三 部 分 组 成 。 第 一 部 分 (13. 1 P 关注 性 能 指标 : 一 个 搜索 引擎 很 快 是 什么 意 
思 ? 我 们 引入 香 吐 量 (throughput) 和 延迟 〈latency) 作为 两 个 重要 的 性 能 指标 。 第 二 部 分 
(13.2 节 ) 通过 排队 论 来 分 析 系 统 在 高 负荷 下 的 运作 情况 ， 从 而 探讨 这 两 个 指标 的 关系 。 最 

后 一 部 分 (13. 3 节 和 13. 4 节 ) 关注 两 种 不 同类 型 的 性 能 优化 方法 : 查询 调度 和 缓存 。 尽 管 
它们 都 与 度量 过 程 无 直接 关联 ， 但 都 对 评价 结果 有 很 大 影响 。 另 外 理解 它们 在 设计 性 能 测试 
实验 时 的 作用 也 很 重要 。 


13.1 效率 标准 

度量 一 个 计算 机 系统 的 性 能 是 很 困难 的 。 个 人 计算 机 在 20 址 纪 80 年 代 中 期 成 为 一 种 商 
品 ， 那 时 大 部 分 制造 商 在 宣传 他 们 的 产品 时 ， 还 在 使 用 MHz 频率 作为 评价 CPU 效率 的 主 
要 标准 。 随 着 时 间 流 逝 ， 处 理 器 频率 作为 评价 系统 性 能 的 指标 变 得 越 来 越 不 可 靠 了 ， 新 一 代 
的 微 处 理 器 总 是 宣称 比 上 一 代 更 快 ， 尽 管 它们 有 着 相似 甚至 更 低 的 时 钟 频率 。 当 前 CPU Æ 
产 商 的 注意 力 已 经 从 CPU 频率 上 转移 了 ， 不 再 关注 CPU 频率 和 每 时 钟 周期 执行 指令 的 次 
数 ， 而 是 转向 关注 让 每 台 计 算 机 拥有 更 多 的 CPU 核 ， 所 以 在 这 种 情况 下 要 评价 一 个 计算 机 
系统 的 性 能 就 更 困难 了 。 

人 们 尝试 用 一 些 实际 的 性 能 指标 来 告诉 我 们 一 台 计 算 机 有 和 多 快 或 多 慢 ， 从 而 规避 了 直接 
评价 CPU 性 能 这 个 难题 。 第 一 个 提议 是 由 标准 性 能 评价 机 构 (Standard Performance Eval- 
uation Corporation，SPEC) 带头 提出 的 ， 该 机 构 是 一 个 在 1988 年 建立 的 非 营 利 性 组 织 。 
SPEC 已 经 着 手 研发 用 于 评价 计算 机 系统 各 性 能 方面 的 多 种 基准 。 例 如 ， 他 们 的 SPECfp 基 
准 就 主要 关注 计算 机 的 浮 点 单元 。SPECfp 得 分 是 一 项 衡量 对 于 需要 扩展 数值 计算 的 任务 计 
算 机 性 能 的 指标 ， 如 物理 模拟 或 是 3D 绘图 。 另外，SPECweb2005 基准 设计 成 用 来 衡量 
Web 服务 器 这 样 的 计算 机 性 能 的 指标 它们 的 工作 包括 提供 HTML 网 页 ， 使 用 PHP 生成 
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动态 内 容 等 )。 完 整 的 基准 列表 可 以 在 SPEC 的 网 站 © 上 找到 。 

适合 每 个 搜索 引擎 性 能 基准 的 标准 化 序列 是 不 可 能 存在 的 。 即 便 存 在 一 个 ， 也 不 可 能 明 
确 地 知道 它 到 底 有 多 大 的 作用 ， 鉴 于 一 个 特定 排名 算法 的 部 署 决策 通常 代表 效率 和 有 效 性 之 
间 的 权衡 。 例 如 8. 6 节 中 的 伪 相 关 反 馈 机 制 。 由 表 8-2 中 的 评价 结果 可 知 ， 通 过 采用 伪 相 关 
性 反馈 机 制 总 是 可 以 大 幅 提 高 查 准 率 。 但 是 ， 这 么 做 要 求 有 一 秒 的 时 间 来 传输 数据 ， 那 么 搜 
索引 擎 的 响应 就 变 慢 了 。 如 果 没 有 采用 用 户 学 习 的 方法 ， 那 么 要 知道 伪 相 关 性 反馈 是 否 实际 
上 提升 了 搜索 引擎 的 整体 性 能 就 很 困难 了 。 实际 中 ， 因 为 大 量 时 间 和 开销 都 和 用 户 学 习 关 
联 ， 所 以 如 何 权衡 效率 和 有 效 性 常常 是 由 策略 决策 决定 的 ， 且 这 些 策略 决策 不 是 由 实验 数据 
得 出 的 。 由 于 对 于 这 个 问题 没有 一 般 性 的 解决 方案 ， 因 此 我 们 可 以 忽略 它 而 假设 搜索 引擎 的 
排名 函数 是 固定 的 ， 这 样 我 们 就 可 以 专注 于 系统 效率 。 


13.1.1 香 吐 量 和 延迟 


当 微 调 搜 索引 擎 的 性 能 时 ， 我 们 常常 会 陷于 左右 为 难 的 境地 一 一 两 组 不 相 上 下 的 实现 方 
案 (它们 的 搜索 结果 是 一 样 的 )， 我 们 想 知道 哪 一 个 更 好 。 两 种 最 常见 的 性 能 指标 一 一 吞吐 
(throughput) 和 延迟 (latency) 可 以 回答 这 个 问题 。 

- 因此 指 给 定 周期 内 搜索 引擎 处 理 查询 的 数量 。 这 个 值 常 常 以 每 秒 查询 数量 (queries 

per second, qps) 作为 衡量 单位 。 如 果 搜 索引 擎 在 5 秒 内 处 理 了 700 条 查询 ， 那 它 的 
吞吐 量 就 是 140 gps. 

当 提 及 吞吐 量 时 ， 我 们 常常 指 的 是 理论 吞吐 量 (theoretical throughput), CHARS 
速率 (service rate) ， 它 表示 系统 处 理 查询 可 能 达到 的 最 快速 率 。 一 个 紧密 关联 的 指标 是 服 
务 时 间 (service time)， 即 处 理 器 在 活跃 状态 下 处 理 一 条 查询 的 时 间 。 服 务 时间 和 服务 速率 
可 通过 下 面 的 公式 联系 起 来 





serviceRate = — 7” (13-1) 


serviceTime 
HH, m 表示 系统 中 处 理 器 的 数量 。 
。 延 迟 ， 也 称 做 响应 时 间 (response time), ， 即 搜索 引擎 从 接收 查询 到 返回 用 户 结果 所 
用 的 时 间 。 它 的 度量 单位 是 每 条 查询 的 秒 数 (seconds per query). 

可 以 度量 在 服务 器 端 或 在 客户 端 上 的 延迟 。 后 者 称 为 端 到 端 延 迟 (end-to-end latency), 
它 表 示 从 用 户 发 出 查询 到 用 户 收 到 搜索 结果 这 段 时 间 。 它 包含 了 网 络 延迟 ， 比 搜索 引擎 处 理 
查询 造成 延迟 更 加 能 够 反映 用 户 的 满意 程度 。 但 是 ， 进 行 性 能 比较 评价 时 ， 只 关注 实际 的 搜 
索 延 迟 就 足够 了 ， 因 为 网 络 带 来 的 额外 的 延迟 是 一 个 无 关于 实现 方案 的 常量 。 

如 果 只 是 针对 单个 查询 ， 那 么 吞吐 量 和 延迟 是 毫 无 意义 的 。 当 查询 的 总 量 非常 大 时 ， 达 
到 上 千 乃 至 百 万 级 时 ， 就 可 用 一 个 均值 来 代表 它们 : FA (mean throughput) 或 平 
均 延 迟 (mean latency)， 这 与 我 们 报告 例如 平均 查 准 率 均 值 这 样 的 有 效 性 指标 是 类 似 的 
Ch, 12.1 47). 

回 到 之 前 如 何 判 定 两 种 实现 方案 哪个 更 好 的 问题 上 来 ， 我 们 通过 使 用 在 有 效 性 评价 中 使 
用 的 工具 来 解决 这 个 问题 ， 在 两 种 实现 方案 的 系统 上 处 理 同 一 个 查询 集 @&@={q1,… ,4n}， 记 
录 下 每 一 条 查询 gi 的 延迟 (或 服务 时 间 )， 就 可 以 计算 出 置信 区 间 来 分 辨 这 两 种 方案 间 的 不 
同 之 处 (可 以 回顾 一 下 12. 3. 2 节 置 信 区 间 的 计算 和 解释 )。 如 果 置 信 区 间 包 含 0， 我 们 就 可 以 
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由 此 推断 出 这 两 种 方案 间 没 有 多 大 的 区 别 。 否 则 ，、 我 们 就 可 以 知道 哪个 方案 更 快 ， 并且 丢弃 
另外 一 个 。 
相 比 于 有 效 性 评价 ， 性 能 评价 有 它 特有 的 优势 ， 即 不 需要 任何 人 工 的 判断 。 我 们 可 以 轻 
易 地 度量 搜索 引擎 处 理 成 千 上 万 条 查询 的 服务 时 间 ， 这 样 可 以 在 低 于 1 多 的 误差 下 可 靠 地 检 
测 出 它们 性 能 间 的 差别 。 要 在 有 效 性 评价 中 也 达到 这 样 敏感 的 级 别 将 会 带 来 巨额 开销 。 
延迟 关上 服 务 时 间 
人 们 可 能 会 认为 延迟 和 服务 时 间 〈 或 延迟 和 吞吐 量 ) 是 相同 的 度量 。 但 是 这 两 者 是 非常 
不 同 的 。 系 统 延 迟 绝对 大 于 它 的 服务 时 间 ， 而 且 通 常会 大 大 超过 。 除 了 实际 处 理 查询 开销 的 
时 间 ， 延 迟 还 包括 等 竺 周期， 如 : 
。 如 果 索 引 不 是 存储 在 内 存 中 ， 那 就 需要 等 待 硬盘 传输 位 置信 息 数 据 。 这 个 等 待 的 周 
期 并 不 计 人 系统 服务 时 间 中 ， 因 为 等 待 从 磁盘 读 取 位 置信 息 数据 时 可 以 处 理 其 他 的 
查询 。 
。 查询 队列 等 待 直到 CPU 可 用 。 如 果 在 系统 高 负载 的 情况 下 ， 排 队 效 应 可 能 是 延迟 的 
一 个 主要 原因 ( 见 13.2 节 )。 
。 一 个 分 布 式 搜索 引擎 有 n 个 独立 的 索引 服务 器 ， 当 前 i 个 服务 器 完成 任务 后 ， 需 等 
待 余下 的 一 i 个 服务 器 返回 它们 的 结果 。 
除了 这 种 下 限 关系 ， 吞 吐 量 和 延迟 间 还 常常 存在 一 种 对 抗 性 (adversarial〉 KA, BH 
过 提升 其 中 一 个 来 改进 系统 性 能 ， 往 往 会 导致 男 一 个 指标 的 下 降 。 如 果 将 我 们 的 思路 扩展 到 
并 行 化 的 情况 ， 那 么 这 种 对 抗 性 就 更 为 明显 。 假 设 我 们 有 一 个 搜索 引擎 ， 它 有 两 个 索引 服务 
器 五 和 于。 那 至 少 有 两 种 方法 可 以 分 割 查询 处 理 负载 : 
。 索引 复制 (index replication): I: Æ h 的 副本 。 它 们 都 维护 着 全 部 索引 的 一 个 副本 。 
当 一 个 查询 到 来 时 ， 它 传送 给 h 或 I 的 概率 都 是 50% 。 | 
。 索引 划分 (index partitioning): I, 和 1 各 索引 着 50% 的 文档 集合 。 当 一 个 查询 到 
来 时 ， 它 被 转发 到 这 两 个 有 索 引 服 务 器 。 攻 和 I 各 自 根据 它们 索引 的 内 容 计 算 前 个 
检索 结果 。 当 这 两 个 索引 服务 器 都 完成 各 自 的 任务 后 ， 这 两 个 结果 集合 并 成 最 终结 
果 并 返回 给 用 户 。 
我 们 比较 这 两 种 方法 ， 均 给 它们 只 配置 一 台 服 务 器 ， 并 分 析 吞 吐 量 和 延迟 。 索 引 复 制 可 
能 增加 一 倍 的 吞吐 量 ， 因 为 每 个 索引 服务 器 只 处 理 50% 的 查询 。 它 对 延迟 没有 影响 ， 因 为 
单个 查询 仍然 只 被 一 个 服务 器 处 理 。 索 引 划 分 同时 将 吞吐 量 和 延迟 提高 到 一 样 的 程度 ， 但 却 
因为 下 述 几 个 原因 ， 使 加 速度 小 于 100% : 
。 一 些 操作 涉及 的 查询 处 理 开销 独立 于 索引 的 大 小 。 例 如 ， 如 果 索 引 存 储 在 磁盘 中 ， 系 统 
需要 为 每 个 查询 词 项 至 少 执 行 一 次 磁盘 寻 道 。 这 个 开销 不 会 因为 将 整个 集合 分 半 而 减少 。 
。 搜 索 / 排 名 处 理 的 计算 复杂 度 与 索引 规模 的 关系 不 是 线性 的 。5.1.1 节 中 的 
MAXSconE 启 发 策略 可 以 用 于 避免 为 那些 不 在 靠 前 的 搜索 结果 里 的 文档 进行 评分 。 
如 果 使 用 了 MAxScoRE ， 索 引 越 大 ， 那 些 需 要 评分 的 文档 就 会 越 小 。 
因此 ， 如 果 我 们 的 注意 力主 要 放 在 吞吐 量 上 ， 那 么 就 没有 必要 提升 延 人 运 ， 采 用 索引 复制 
就 是 正确 的 选择 S 。 和 否则， 索引 划分 就 更 加 合适 。 一 个 大 规模 的 搜索 引擎 ， 同 时 面 对 延 迟 和 
吞吐 量 问题 ， 可 以 考虑 结合 这 两 种 方法 。 
O 除了 纯粹 性 能 的 考虑 ， 复 制 相 对 于 划分 的 优点 在 于 它 提 供 了 容错 : 如 果 索 引 服 务 器 h 或 12 失败 了 ， 尽 管 速率 下 


降 了 ， 但 系统 仍 能 处 理 查询 。 使 用 索引 划分 ， 如 果 一 个 索引 服务 器 失败 了 ， 系 统 就 极 有 可 能 不 能 用 了 ， 因 为 它 将 
丢失 搜索 结果 中 50% 的 内 容 。 第 14 章 将 讨论 分 布 式 搜索 引擎 中 的 容错 。 
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13.1.2 汇总 统计 和 用 户 满意 度 


和 和 有效 性 指标 一 样 ， 效 率 指标 的 汇总 统计 (如 平均 吞吐 量 或 平均 延迟 ) 不 总 是 特别 有 意 
义 。 考 虑 两 个 假定 的 搜索 系统 A 和 B， 系 统 A 常常 需要 500 ms 来 处 理 一 条 查询 ， 而 系统 B 
采用 了 成 熟 的 缓存 策略 ， 所 以 90 多 的 查询 可 以 在 10 ms 内 处 理 完毕 ， 而 其 余 的 10%, ME 
均 每 条 查询 需要 4. 9 s。 两 种 系统 都 达到 了 同样 的 平均 延迟 , 但 是 A 提供 的 用 户 体验 远 比 B 
要 好 ， 因 为 10% 的 用 户 将 无 法 忍受 不 可 预料 的 长 响应 时 间 。 

固然 上 面 的 例子 是 虚构 的 ， 这 样 极端 的 差别 在 现实 中 是 很 少 遇 到 的 。 尽 管 如 此 ， 它 也 足 
以 说 明 如 果 我 们 仅 用 平均 性 能 度量 是 会 陷 人 相似 的 问题 中 的 。 为 了 克服 这 个 问题 ， 人 们 通常 
使 用 百分比 来 取代 平均 值 。 例 如 ， 一 个 搜索 引擎 公司 的 技术 目标 是 99% 的 查询 都 可 以 在 1 s 
内 完成 。 从 用 户 的 角度 看 ， 这 种 指标 远 远 比 平均 延迟 指标 更 有 意义 。 它 还 有 另外 受 欢 迎 的 一 
面 ， 它 可 以 回答 在 前 一 节 中 提 到 的 延迟 和 吞吐 量 之 间 的 权衡 问题 。 延 迟 现在 不 再 是 个 自由 变 
量 。 我 们 可 以 微调 系统 来 优化 吞吐 量 ， 以 使 99 多 的 查询 都 可 以 在 1 s 内 完成 。 


13.2 排队 论 


搜索 引擎 的 操作 常常 面 对 着 如 何 决 定 搜索 引擎 的 查询 容量 的 问题 ， 即 估计 当 满 足 特定 的 
延迟 需求 时 ， 例 如 前 面 所 说 的 99% 的 查询 在 1 s 内 完成 的 标准 ， 最 大 的 吞吐 量 可 以 达到 多 
少 。 一 种 解决 的 方法 是 执行 性 能 测试 实验 ,通过 传送 查询 给 搜索 引擎 (例如 ， 重 现 之 前 记录 
的 查询 日 志 )， 并 逐渐 增加 查询 到 达 搜 索 系 统 的 频率 ， 直 至 达到 预定 义 的 延迟 极限 。 遗 憾 的 
是 ， 不 总 是 有 合适 的 时 机 来 运行 这 样 的 测试 。 首 先 ， 它 耗费 了 珍贵 的 计算 资源 而 不 是 用 这 些 
资源 来 处 理 实际 的 查询 。 其 次 ， 如 果 搜 索引 擎 还 没有 投入 使 用 ， 也 很 难 获取 准确 反映 查询 到 
来 时 间 分 布 的 查询 日 志 。 

另 一 种 获取 实际 性 能 的 测试 实验 是 使 用 数学 模型 来 预测 实验 的 输出 ， 这 种 方法 基于 对 搜 
索引 人 擎 查询 处 理性 能 的 估计 。 假 设 我 们 每 条 查询 都 逼近 于 平均 服务 时 间 。 那 我 们 在 已 知 平均 
查询 到 达 速 率 的 情况 下 ， 可 以 用 排队 论 的 方法 来 计算 系统 的 平均 延迟 。 通 过 反 向 计算 ， 就 可 
以 计算 出 在 满足 预定 义 延 迟 需求 时 可 能 达到 的 最 大 吞吐 量 。 

给 定 平 均 服 务 时 间 和 查询 到 达 速 率 ， 我 们 用 于 估计 延迟 的 模型 是 基于 以 下 三 个 基本 
假设 : 

D 两 个 连续 查询 到 来 的 时 间 差 《到 达 间 隔 时 间 (inter-arrival time)) 是 一 个 随机 变量 
4， 它 服从 指数 分 布 ， 即 密度 函数 为 

fa(z) =r-e7** (z > 0) (13-2) 

其 中 ， 和 是 查询 到 达 速 率 (query arrival rate), E|A] =f T - f(z,A) dz = 1/ 和 是 两 个 
查询 先后 到 达 的 平均 时 间 差 。 这 个 模型 有 时 可 以 称 为 泊 松 过 程 (“Poisson process) ， 因 为 在 
固定 时 间 间 隔 内 到 来 的 查询 数量 服从 泊 检 分布 Poisson distribution) 公式 (8-34)。 

2) 每 条 查询 的 服务 时 间 是 一 个 随机 变量 s， 它 也 服从 指数 分 布 ， 密 度 函 数 为 

fs(x)=p-e ** (x =O) (13-3) 

其 中 ，/ 是 系统 的 服务 速率 〈 即 它 的 理论 和 春 吐 量 ) El) = 1// 是 每 条 查询 的 平均 服务 时 
间 。 我 们 假设 4 > 入 ， 和 否则 搜索 引擎 就 不 能 处 理 所 有 到 来 的 查询 。 

3 查询 以 先 来 先 服务 Cfirst-comefirst-served, FCFS) 的 模式 处 理 。 系 统 通常 一 次 处 
理 一 条 查询 。 
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假设 1 基于 的 观点 是 : 大 量 查询 都 是 相互 独立 的 ， 并 且 在 时 间 上 服从 均匀 分 布 。 这 一 假 
设 通常 是 有 效 的 ， 至 少 在 考虑 短 周 期 的 情况 下 是 成 立 的 ， 比 如 几 分 钟 或 半 小 时 。 对 于 较 长 的 
周期 〈 几 天 或 是 数 周 ) ， 假 设 1 就 不 能 成 立 了 ， 因 为 用 户 一 般 白 天 比 晚 上 要 活跃 ， 工 作 日 比 
周末 要 活跃 ,诸如 此 类 。 

如 果 从 理论 上 考虑 ， 假 设 2 是 不 成 立 的 ， 但 是 却 满足 实际 的 服务 时 间 分 布 。 例 如 图 13-1 
给 出 了 在 TREC TB 2006 高 效 任务 和 GOV2 文档 集 的 模式 独立 索引 中 运行 10 000 条 查询 时 ， 
邻近 度 排 名 〈 图 2-10) 和 Okapi BM25 (公式 〈8-48)) 的 服务 时 间 分 布 〈 只 是 .CPU 时 间 ， 
不 含 等 待 硬件 的 时 间 ) 。 尽 管 两 种 排名 算法 非常 不 同 ， 但 是 丙种 算法 中 每 条 查询 的 服务 时 间 
都 可 以 使 用 密度 函数 为 fs(z) = 人 e 和 (其 中 邻近 度 排名 中 的 上 = 4.37 gps, Mi BM25 的 
w= 0.75 aps) 的 指数 分 布 合理 地 建 模 。 


a) 邻近 度 排 名 b) Okapi BM25 





0 0.2 0.4 0.6 0.8 0 1 2 
服务 时 间 (s) 服务 时 间 (s) 


图 13-1 ”以 每 条 查询 的 服务 时 间 〈 即 CPU 时 间 ) 为 随机 变量 建立 的 指数 分 布 模型 
a) 平均 服务 时 间 [S] 二 0.23s (u=4.37 qps〉 的 邻近 度 排 名 《图 2-10); 
b) 平均 服务 时 间 为 ELS]==1.34$ (u=0.75 gps) 的 Okapi BM25( 公 式 (8-48)) 


假设 3 是 为 了 简化 模型 。 大 规模 搜索 引擎 常常 使 用 很 多 复杂 的 调度 算法 。 当 系统 在 高 负 
荷 下 运行 时 ， 选 择 正 确 的 调度 算法 会 对 延迟 有 很 大 的 影响 。 但 是 ， 复 杂 的 调度 算法 越 多 ， 分 
析 就 越 困难 ， 所 以 我 们 暂时 忽略 它们 。 到 13. 3 节 我 们 再 重新 回 过 头 来 探讨 这 个 主题 。 


13.2.1 肯 德 尔 符号 


上 面 描 述 的 排队 模型 对 应 于 肯 德 尔 符号 (Kendalls notation) HH M/M/c/00/00/F 模 
型 ， 这 是 以 英国 统计 学 家 David G.Kendall 的 名 字 命 名 的 不 是 另 一 个 发 明了 Kendall 符号 7 
的 英国 统计 学 家 Maurice G.Kendall) 。 
。 第 一 个 “M” 指 查询 到 达 的 过 程 ， 这 个 过 程 我 们 假设 为 马尔 可 夫 过 程 (Markovian) 
〈 即 指数 ) 。 
。 第 二 个 “M” 指 服务 时 间 分 布 ， 假 设 也 是 一 个 马尔 可 夫 过 程 。 
。“c” 指 的 是 系统 中 服务 通道 〈service channel) 〈 即 服务 器 ) 的 数量 。 为 了 简单 起 见 ， 
我 们 仅 讨论 c=1 的 情况 。 但 是 ， 注 意 到 这 样 的 情形 也 包括 由 ?% 个 并 行 服务 器 组 成 的 
分 布 式 系统 ， 其 中 每 个 服务 器 负责 1/n 的 索引 。 
。 第 一 个 “co” 指 的 是 队列 中 槽 的 数量 ， 这 里 我 们 假设 是 无 限 的 。 
。 第 二 个 “co” 指 的 是 正在 查询 的 人 数 ， 这 里 我 们 也 认为 是 无 限 的 。 
。“F” 是 排队 规则 (queue discipline) ， 也 就 是 系统 处 理 查询 的 次 序 。 如 前 所 述 ， 我 们 
采用 FCFS 的 策略 。 
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因为 完整 的 肯 德 尔 符号 的 最 后 三 个 参数 常常 都 是 相同 的 《oo/co/)， 所 以 时 常 使 用 精 
fA SM /M/cRER RRNA SM /M/c/00/00/F , 


13.2.2 M/M/1 排队 模型 


现在 我 们 来 描述 如 何 通 过 M/M/1 排 队 模 型 来 计算 搜索 引 敬 的 延迟 分 布 。 在 我 们 深入 讨 
论 计算 细节 之 前 ， 让 我 们 先 重 述 一 个 常用 于 排队 分 析 的 理论 。 

Little 定律 (Little, 1961) 

设 n 为 系统 在 某 个 随机 时 间 点 的 查询 平均 数 〈 包 含 了 队列 中 正在 处 理 或 等 待 的 查询 )。 再 
者 ， 令 》 为 查询 到 达 速 率 。 那 么 系统 的 平均 查询 响应 时 间 ” 是 
r=5 (13-4) 

公式 (13-4) 的 证 明 过 程 比较 简单 CE Little 的 论文 中 可 以 找到 正式 的 证 明 过 程 )。 考 
虑 在 足够 长 的 时 间 间 隔 t 内 有 9 条 查询 到 来 gq 二 入 *t)。 那 么 系统 处 理 这 9 条 查询 的 总 时 间 
就 是 ror? gq。 由 于 当 一 条 查询 在 系统 中 的 时 候 〈 包 含 了 队列 中 正在 处 理 或 等 待 的 查询 ) 
ABFA BAT roas AEA ?wm 一 %n。t， 由 此 推出 7 二 n/ 和 A。 注 意 到 我 们 对 于 服务 时 间 
和 到 达 时 间 间 隔 的 分 布 没有 做 任何 假设 。 那 么 Little 定律 就 可 以 应 用 到 任何 的 排队 模型 上 ， 
而 不 仅仅 是 M/M/1 模型 。 

为 了 计算 搜索 引擎 的 平均 延迟 ， 我 们 首先 计算 系统 在 任 一 时 间 点 上 处 理 的 期 望 查询 数 
量 。 我 们 可 以 把 搜索 引擎 看 做 是 一 个 概率 状态 机 ， 其 中 I; 状态 表示 “系统 中 有 i 条 查询 ” 
( 即 1 条 查询 正在 被 处 理 ， 而 i 一 1 条 查询 在 队列 中 等 待 ) 。 每 个 状态 与 概率 p; 相关 : 系统 在 
某 一 时 刻 处 于 状态 Z 的 概率 。 这 种 类 型 的 状态 机 称 为 连续 马尔 可 夫 链 (continuous Markov 
chain), ， 如 图 13-2 所 示 。 


入 





图 13-2 一 个 连续 马尔 可 夫 链 ， 把 系统 的 查询 队列 描述 为 带 有 无 限 个 状态 的 
状态 机 。 状 态 2; 表示 “系统 中 有 i 条 查询 ”。 状 态 转 移 Z> Zi A 
Zin > Zi; 的 相对 频率 由 查询 到 达 速 率 s 和 服务 速率 y 分 别 给 出 


我 们 对 两 个 相 邻 状态 Z 和 2i+1 间 的 转移 以 及 它们 之 间 的 相对 频率 感 兴 趣 。 让 T 表示 
MZ, RA Za. T 表示 反方 向 的 转移 。 在 平均 情况 下 ， 单 位 时 间 内 TREA +p 次 ， 
而 TRE u' pi 次 。 因 为 我 们 假设 查询 到 达 过 程 和 服务 过 程 都 是 马尔 可 夫 过 程 〈 即 无 记 
忆 的 ) ， 它 们 各 自 的 数量 都 不 取决 于 系统 中 的 查询 数量 。 所 以 ， 分 数 

Api (13-5) 
H: Di4+1 
对 于 所 有 i20 都 是 一 样 的 。 这 一 观察 的 本 质 是 : 平均 来 说 ， 两 种 类 型 的 状态 转移 发 生 的 频 
率 都 是 一 样 的 。 很 明显 ，T- 不 可 能 比 T+ 发 生得 更 频繁 ， 因 为 只 有 一 条 查询 到 达 后 才 有 可 
能 被 处 理 。 另 外 ，T+ 也 不 可 能 比 T 发 生得 更 加 频繁 ; 如果 是 ， 那 么 队列 中 查询 的 平均 数 
量 就 是 个 无 穷 值 了 (同时 我 们 会 有 和 之 nx)。 因 此 ， 这 两 项 必须 具有 相同 的 值 : 
À- Pi = H pit (13-6) 
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RSAT: 
Bi+1 = < -Pi (13-7) 
为 了 方便 ， 我 们 定义 ?二 和 /un 〈p 称 为 流量 强度 (traffic intensity) 或 利用 率 Cutilization)), 
那 我 们 就 可 以 得 到 | 
Pi=Po° pi Viz0. (13-8) 
由 于 pi 构成 了 概率 分 布 ， 因 此 它们 的 和 为 1。 由 此 我 们 可 以 计算 po: 





po Dp lp 7 =19m=1- 一 工 一 A/1 (13-9) 
i=0 
系统 中 的 查询 数量 N 遵循 下 式 : 

EIN]=》 ,ipi= 2 a-p): P= 一 (13-10) 

i=0 i= 1 =P 
最 后 ， 通 过 应 用 Little 定律 (公式 (13-4)) 我 们 可 以 得 到 
_EIN|__ 1 1 
E|R}= Y “aio pod (13-11) 


其 中 ，R 是 一 个 随机 变量 ， 表 示 每 条 查询 的 响应 时 间 〈 即 延迟 ) 。 如 果 系 统 服务 时 间 S 和 到 
达 间 隔 时 间 和 A 都 服从 指数 分 布 ， 那 么 响应 时 间 R 也 服从 指数 分 布 Harrison, 1993); 











fr(t)(u—A)-e HO" (18-12) 
为 了 方便 ， 表 13-1 总 结 了 从 M/M/1 模型 派生 出 来 的 重要 公式 。 
表 13-1 M/M/1 排队 模 型 的 关键 公式 (入: 到 达 速 率 ; y: 服务 速率 ) 
统计 量 公式 

平均 利用 率 p=A/u | 

系统 中 查询 的 平均 数量 E[N] = p/(1 ~ p) 

平均 响应 时 间 E(R] = 1/(u— A) 

响应 时 间 分 布 fr(a) = (u — A) -e7472 


13.2.3 ”延迟 量 和 平均 利用 率 


让 我 们 回 到 13. 1. 2 节 中 假设 的 目标 状态 : 对 于 99% 的 查询 ， 搜 索引 警 的 延迟 小 于 1 s。 
假设 引擎 处 理 每 条 查询 平均 需要 100 ms CR py 二 10)。 FS Z| SCE KS BE EA 
fr(x)=(10 — A) .e107 Ns (13-13) 
而 延迟 低 于 1 s 的 那 部 分 查询 为 


1 
| fr(z) dz = 1— e^" (13-14) 
0 


对 于 99% 的 查询 ， 我们 有 e 82 一 1 一 0.99， 这 意味 着 As5.4。 也 就 是 说 ， 我 们 可 以 保 
持 搜索 引擎 的 平均 利用 率 在 54% 的 查询 延迟 小 于 1 s。 
如 果 更 进一步 提升 目标 ， 我 们 希望 99. 9% 的 查询 延迟 都 小 于 1 s， 那 么 结果 是 =“*3.1， 对 应 
31 色 的 平均 利用 率 。 

上 述 的 例子 说 明了 搜索 引擎 的 理论 吞吐 量 (与 它 的 服务 速率 一 样 〉 和 它 实 际 上 获得 的 知 
吐 量 〈 不 会 导致 不 合理 的 高 延迟 ) 间 的 不 同 。 实 际 上 ， 高 于 50 名 的 平均 利用 率 就 被 认为 是 
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非常 高 的 ， 而 且 不 太 可 能 。 并且， 注意 到 我 们 所 有 的 计算 都 是 基于 到 达 速 率 和 为 常数 这 一 假 
设 。 这 个 假设 通常 只 对 短 时 间 周 期 有 效 ， 也 许 是 几 分 钟 ， 但 对 较 长 的 时 间 间 隔 就 失效 了 ， 比 
如 一 整 天 ， 因 为 用 户 在 长 周期 中 的 活动 波动 很 大 〈 大 部 分 人 都 是 晚上 睡觉 的 ) 。 因 为 查询 到 
达 速 率 的 变化 ， 长 时 间 的 利用 率 水 平 大 概 为 20% 或 是 更 低 都 是 很 常见 的 。 因 此 ， 相 比 于 用 
不 考虑 延 述 的 简单 吞吐 量 分 析 去 预测 ， 不 如 在 硬件 上 花费 5 倍 乃 至 更 多 的 资源 。 


13.3 ”查询 调度 


在 上 一 节 ， 我 们 对 搜索 引擎 延迟 R 作 了 如 下 假设 ， 查询 以 先 来 先 服务 的 方式 处 理 。 这 
种 排队 规则 背后 的 理由 是 公平 性 : 我 们 不 希望 Alice 在 Bob 前 提交 了 查询 ， 却 在 Bob 后 接收 
到 她 的 搜索 结果 。FCEFS 就 保证 了 这 种 次 序 ， 搜 索 结果 的 返回 次 序 总 是 和 用 户 查 询 到 来 的 次 序 
一 致 。 但 是 ， 如 果 我 们 主要 的 目的 不 是 公平 ， 而 是 最 小 化 延迟 ，FCFS 就 不 是 一 种 最 优 策略 了 。 

考虑 以 下 情景 : 有 两 条 查询 qi 和 9;41 在 队列 中 等 等 处 理 。 假 设 我 们 知道 它们 各 自 的 服 
务 时 间 s: Msia, HE 8; 二 8i41 十 6 (6>>0)。 我 们 可 以 交换 两 个 查询 的 次 序 ， 将 qi 的 延迟 
增加 到 si;j1，、 同 时 将 qi41 的 延迟 减少 为 st， 从 而 它们 平均 的 延迟 降低 到 6/2。 

改变 搜索 引擎 处 理 查 询 次 序 的 机 制 称 为 调度 算法 (scheduling algorithm)。 为 了 简单 起 
见 ， 我 们 只 讨论 以 下 三 种 算法 : 

e FCFS 〈 先 到 先 服务 ) 。 这 是 我 们 目前 的 讨论 中 假设 使 用 的 调度 算法 。 

。 SIF 〈 最 短 任务 优先 ) 。 每 当 搜索 引擎 完成 一 条 查询 处 理 ， 同 时 从 队列 中 选择 下 一 条 

查询 来 处 理 时 ， 总 是 选择 那 条 具有 最 短 预 测 服务 时 间 的 查询 。 

。DDS (截止 驱动 调度 ) 。 对 于 系统 中 的 每 个 查询 ， 我 们 定义 它 的 截止 时 间 为 它 到 来 后 

1 s。 每 当 搜 索引 擎 处 理 完 一 条 查询 后 ， 就 对 查询 队列 重新 排序 ， 最 小 化 超过 截止 时 
间 的 查询 数量 。 如 果 出 现 平局 〈 即 两 种 排序 都 得 到 同样 数目 的 超时 的 查询 )， 引 警 就 
选择 平均 延迟 最 小 的 那个 排序 。 

注意 到 预测 查询 9 的 服务 时 间 是 很 困难 的 。 但 是 一 般 使 用 粗 估计 就 足够 了 ， 可 以 利用 
查询 词 项 的 位 置信 息 列表 的 长 度 和 查询 中 词 项 的 数目 获得 这 个 粗 估计 。 

图 13-3 展示 了 我 们 模拟 在 服务 速率 p= 10 gps 时 搜索 引擎 的 实验 结果 。 在 做 这 个 实验 
时 ， 我 们 让 查询 到 达 速 率 在 \ 王 1 qps 到 和 一 8 gps 〈 即 平均 利用 率 在 10% ~80%)。 每 个 模拟 
都 持续 数 小 时 (模拟 时 间 )， 处 理 几 十 万 条 查询 。 图 13-3 描绘 了 三 种 调度 算法 中 搜索 引擎 的 
平均 延迟 和 查询 时 间 大 于 1 秒 的 那 部 分 查询 。 你 可 以 看 出 ， 在 高 负载 下 ， 选 择 正确 的 调度 算 
法 将 有 很 大 的 影响 。 例 如 当 o 一 0.7 时 ，FCFS 导致 了 5% 的 查询 超时 。 但 如 果 使 用 DDS， 它 
的 目标 就 是 最 小 化 超时 查询 的 数目 ， 那 么 就 只 有 1% 的 查询 超时 。 


f 
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图 13-3 “模拟 在 不 同 的 到 达 速 率 入 下， 不 同 的 查询 调度 算法 产生 的 延迟 。 服 务 速率 固定 为 y 一 10 gps 
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暂 不 讨论 各 个 算法 降低 全 局 查询 延迟 的 能 力 ，SJF 和 DDS 都 有 一 个 明显 的 缺点 :饥饿 
(starvation) 。 如 果 某 条 查询 的 服务 时 间 被 预测 得 很 高 ， 那 么 它 在 被 处 理 前 可 能 需要 等 待 一 
段 很 长 的 时 间 。 例 如 ， 尽 管 SIF 把 延 时 1 秒 以 上 的 查询 比例 从 5% 降 低 到 2. 5% (p=0.7), 
但 是 把 延 时 超过 2 秒 的 查询 比例 从 0. 02 多 提高 到 了 0. 06% 。 如 果 使 用 DDS， 这 一 效果 相对 
没有 那么 明显 ， 但 是 延 时 超过 2 秒 的 查询 比例 依然 达到 0. 05% 。 

一 般 来 说 ， 单 独 一 个 数值 ， 比 如 低 于 某 个 延迟 闹 值 的 查询 百分比 是 不 能 完整 地 描述 搜索 
引擎 的 性 能 和 它 对 用 户 满意 度 的 影响 的 。 在 降低 某 一 种 类 型 的 查询 延迟 前 ， 我 们 就 不 可 以 如 
免 地 要 增加 另 一 种 类 型 的 查询 延迟 。 因 此 ， 在 选择 具体 调度 算法 前 ， 必 须 明 确 我 们 的 全 局 目 
的 ,或 是 定义 一 个 开销 函数 来 帮助 我 们 分 辨 一 种 给 定 延 迟 水 平 的 不 良 影 响 程度 和 最 小 化 每 个 
查询 的 平均 开销 。 

一 个 线性 的 开销 函数 ceCz) = a 表示 最 小 化 平均 延迟 的 目标 。 一 个 多 项 式 的 开销 沙 数 
c(w) 二 wr? (gq 之 1) 考 虚 了 搜索 引擎 的 延迟 在 处 理 长 查询 时 会 引起 大 幅 变 化 ， 从 而 导致 用 户 烦 
踩 的 情况 。 一 个 恰当 的 开销 函数 只 能 通过 用 户 学 习 获 了 到。 当选 择 了 一 个 查询 后 ， 我 位 就 可 以 
选择 一 种 最 优 的 调度 算法 来 处 理 它 。 


13.4 BH 


前 面 的 章节 我 们 已 经 探讨 了 不 改变 平均 服务 时 间 的 情况 下 降低 搜索 引擎 延迟 的 方法 。 我 
们 讨论 的 查询 调度 算法 不 需要 修改 任何 查询 处 理 逻 辑 :只 是 通过 简单 地 改变 搜索 引擎 处 理 查 
询 的 调度 次 序 来 实现 降低 延迟 的 目标 。 在 本 节 中 ， 我 们 将 主要 探讨 另 一 种 优化 策略 : 通过 组 
存 最 频繁 使 用 的 数据 片 来 降低 平均 服务 时 间 。 

缓存 是 一 种 经 暴 的 时 间 与 空间 的 权衡 (time-versus-space trade-off) 方法 。 如 果 我 们 给 
定 系统 额外 的 内 存 资源 ， 那 么 系统 就 可 能 使 用 这 些 内 存 来 存储 前 面 查询 的 搜索 结果 。 每 当 搜 
索引 擎 接 到 一 条 查询 时 ， 它 首先 检查 它 的 内 部 缓存 来 判断 是 否 已 经 包含 了 搜索 结果 。 仅 当 没 
在 缓存 中 找到 搜索 结果 时 ， 系 统 才 需要 真正 地 处 理 查询 来 获得 搜索 结果 。 

刚 开始 ， 好 像 缓 存 和 构造 可 靠 的 、 有 意义 的 性 能 指标 这 一 问题 是 没有 关系 的 。 但 是 ， 明 
由 缓存 在 查询 流 中 的 特性 是 非常 重要 的 。 例 如 ， 在 AOL 查询 日 志 S 中 ,平均 查询 长 度 大 概 
是 2. 8 个 词 项 。 如 果 我 们 假设 一 个 结果 缓存 的 容量 是 无 限 的， 那么 每 个 不 同 的 查询 都 只 需要 
处 理 一 次 就 足够 了 ， 那 么 平均 每 个 查询 的 长 度 增 加 到 3. 5 个 词 项 ， 因 为 越 长 的 查询 重复 的 可 
能 就 越 小 。 因 此 ， 我 们 评价 搜索 引擎 的 服务 速率 时 ， 是 评价 缓存 前 还 是 缓存 后 的 服务 速率 有 
很 大 的 差别 。 而 且 ， 一 些 缓存 只 有 在 一 段 时 间 后 AAR (warmup period) ) 才能 达到 它们 
的 预期 命中 率 ， 这 意味 着 重启 后 搜索 引擎 的 有 效 服务 速率 可 能 比 预 期 的 低 很 多 。 


13.4.1 三 级 缓存 


当 为 搜索 引擎 设计 缓存 系统 时 ， 我 们 首先 必须 弄 清楚 哪些 类 型 的 数据 是 值得 缓存 的 。 很 
显然 答案 是 “搜索 结果 ”。 如 果 用 户 A 输入 一 条 查询 ， 而 用 户 B 在 几 分 钟 后 同样 输入 这 条 查 
询 ， 那 么 就 没有 必要 重新 处 理 该 查询 了 。 相 反 的 ， 搜 索引 擎 应 该 缓存 用 户 A 最 后 获得 的 搜 





© AOL 查询 日 志 包含 了 2006 年 3 月 到 5 月 AOL 搜索 引擎 上 接收 到 的 近 2 千 万 条 查询 。 它 在 2006 年 8 月 初 被 公开 ， 
因 其 涉及 私人 信息 问题 齐 到 大 家 的 热 议 ， 并 在 发 布 数 日 后 被 迫 下 线 。 通 过 在 自己 喜欢 的 搜索 引擎 上 输入 “aol que- 
ry log” 关 键 字 ， 仍 可 在 网 上 找到 数据 的 副本 。 
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索 结 果 ， 并 将 缓存 的 版 本 传送 给 B. 

缓存 搜索 结果 对 处 理 常 见 查询 的 效果 是 非常 好 的 ， 比 如 “选举 ”和 “全 球 变 暖 ”这 类 常 
常 被 议论 的 话题 。 但 是 ， 缓 存 本 身 也 有 局 限 性 。 就 像 文 本 集中 的 词 频 ， 查 询 频 率 大 概 服从 齐 
夫 分 布 ， 其 中 第 i 个 最 常见 词 项 的 频率 (i) 为 

fi) =e it (13-15) 
其 中 c ERDER, a>] (具体 可 见 1. 3. 3 节 中 对 齐 夫 分 布 的 详细 描述 ) 。 对 于 查询 分 布 ， 
参数 a 通常 非常 接近 于 1， 这 意味 着 分 布 图 形 上 伴随 着 大 量 的 散 点 〈 只 出 现 一 次 的 查询 ) 将 
出 现 一 条 “长 长 的 尾巴 ?。Baeza-Yates 等 人 (2007) 对 从 www. yahoo. co. uk 网 站 上 得 到 的 
一 年 的 查询 日 志 进 行 分 析 ， 发 现 44 免 的 查询 都 只 出 现 一 次 。 平 均 来 说 ,日志 中 的 每 条 查询 
在 整个 周期 内 只 被 请 求 过 两 次 。 因 此 ， 即 使 有 无 限 的 缓存 空间 ， 缓 存 的 命中 率 也 不 会 高 于 
50% 。 无 需 多 说 ， 在 缓存 中 保存 一 条 查询 多 天 ， 对 诸如 Web 这 样 多 变 的 文本 集 来 说 是 不 可 
接受 的 。 因 此 ， 缓 存 命中 率 低 于 50% 的 情况 也 是 很 常见 的 。 

Long 和 Suel (2005) 提出 了 多 级 缓存 (cache hierarchy) 策略 ， 该 策略 中 缓存 从 三 个 
不 同 的 层面 影响 搜索 引擎 ， 从 而 解决 了 上 述 问题 。 

1. 搜索 结果 。 从 每 条 查询 的 观点 来 看 ， 这 是 最 有 效 的 缓存 策略 。 当 在 缓存 中 找到 一 条 
查询 时 ， 搜 索引 擎 几乎 马上 就 可 以 返回 结果 ， 节 省 几 毫 秒 到 数 百 密 秒 不 等 的 服务 时 间 。 在 分 
布 式 的 搜索 引擎 中 ， 缓 存 一 般 位 于 查询 代理 或 是 专用 服务 器 上 。 所 以 当 查 询 结 果 在 缓存 中 找 
到 时 ， 就 没有 必要 连接 索引 服务 器 了 。 

遗憾 的 是 ， 如 前 所 述 ， 一 般 缓 存 的 搜索 结果 不 可 能 超过 查询 流 的 50% 。 因 为 多 数 长 查 
询 都 是 散 点 ， 因 此 可 被 缓存 的 查询 流 基 本 都 是 包含 2 一 3 个 词 项 的 短 查询 ， 这 进一步 限制 了 
缓存 的 作用 。 因 此 ， 使 用 结果 缓存 总 共 节 省 的 时 间 比 期 望 缓存 命中 率 要 低 。Long 和 Suel 的 
实验 指出 ， 因 为 缓存 的 查询 都 较 短 ，50 多 的 命中 率 只 能 将 每 条 查询 的 平均 开销 降低 33%, 
因此 相对 于 没有 缓存 的 查询 来 说 ， 它 们 的 处 理 只 是 快 一 点 而 已 。 

2. 交叉 列表 。 很 多 搜索 引擎 都 采用 合 取 检索 模型 (布尔 AND)。 为 了 找到 包含 所 有 查 
询 词 项 的 文档 集 ， 它 们 必须 交叉 所 有 查询 词 项 的 位 置信 息 列表 。 这 可 以 用 “term-at-a-time” 
的 模式 处 理 。 第 一 步 ， 对 前 两 个 查询 词 项 的 位 置信 息 列表 进行 交 又 处 理 ; 第 二 步 ， 将 第 一 步 
得 到 的 结果 和 第 三 个 词 项 位 置信 息 列表 合并 起 来 ， 如 此 类 推 。 

通过 缓存 共有 查询 词 项 对 的 交叉 列表 ， 我 们 可 以 减少 对 每 个 查询 所 做 的 工作 量 。 例 如 ， 
处 理 查 询 “global”, “warming”, “facts”), RUBE “global” Al “warming” x PA ia] 
项 的 交叉 列表 。 一 段 时 间 后 ， 当 我 们 遇 到 查询 <“global”, “warming”, “controversy”) HY, 
我 们 就 可 以 重用 由 前 面 查询 得 到 的 交叉 列表 ， 从 而 降低 执行 开销 。Long 和 Suel 对 基于 磁盘 
索引 做 交叉 列表 缓存 作 了 估计 ， 发 现 可 以 降低 大 概 50 旬 的 平均 服务 时 间 。 如 果 索 引 是 在 内 
存 中 ， 加 速度 可 能 会 更 小 。 

3. 位 置信 息 列表 。 除 了 在 前 面 两 个 层次 上 的 缓存 策略 ， 我 们 还 可 以 通过 在 内 存 中 维护 
频繁 被 访问 的 位 置信 息 列 表 ， 来 降低 搜索 引擎 的 查询 处 理 开 销 。 这 种 方法 的 效果 依赖 于 是 否 
采用 了 交叉 列表 缓存 。 按 照 Long 和 Suel 的 说 法 ， 如 果 引 擎 只 缓存 搜索 结果 而 不 能 缓存 交叉 
列表 ， 那 么 增加 列表 缓存 可 以 降低 45 多 的 平均 查询 开销 。 然 而 ， 如 果 同 时 缓存 了 交叉 列表 ， 
位 置信 息 列 表 缓 存 只 可 以 节省 约 20 多 的 开销 。 

Turpin 等 人 (2007) 增加 了 第 四 项 缓存 级 别 : 文档 。 尽 管 缓存 文档 对 搜索 处 理 没 有 影 
响 ， 但 是 可 以 加 快 显 示 给 用 户 的 文档 摘要 的 产生 一 一 这 也 是 常 被 〈 学 术 上 的 ) 信息 检索 研究 
忽视 的 一 个 方面 。 
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13.4.2 ”缓存 策略 


在 我 们 决定 了 缓存 什么 样 的 数据 后 ， 我 们 仍 必须 解决 最 后 一 个 问题 ， 哪些 项 目 应 该 被 保 
存在 缓 在 中 ? 既然 缓存 不 可 能 有 足够 的 空间 来 保存 所 有 可 能 的 搜索 结果 、 交 叉 列 表 和 位 置信 
息 列 表 ， 那 么 我 们 就 不 得 不 考虑 哪些 是 值得 被 保存 在 缓存 中 的 ， 而 哪些 是 不 值得 的 。 

缓存 策略 (cache policy) (或 缓存 算法 (cache algorithm)) ， 就 是 在 给 定 了 项 目 集合 和 
缓存 空间 容量 时 ， 用 来 决定 哪些 项 目 应 该 存储 在 缓存 中 。 缓 存 策略 可 以 是 静态 〈static) 的 
也 可 以 是 动态 (dynamic) 的 。 当 使 用 静态 策略 时 ， 缓 存 中 的 项 目 集 是 事先 确定 的 ， 在 搜索 
引擎 启动 后 也 不 会 改变 。 但 它 可 以 周期 性 的 更 新 ， 例 如 在 更 新 索引 时 一 同 更 新 。 在 动态 策略 
中 ， 每 当 系 统 发 现 一 个 值得 缓存 的 新 对 象 (如 ， 位 置信 息 列 表 )， 缓 存 中 的 项 目 集 就 会 相应 
发 生 改 变 。 动 态 缓存 策略 又 称 为 替代 算法 (replacement algorithm) ， 因 为 往 缓存 中 增加 一 
个 项 目 常 常 意味 着 要 和 剿 除 另外 一 个 。 

1. 缓存 策略 的 一 般 目标 

缓存 是 一 个 几乎 在 所 有 计算 机 科学 领域 中 使 用 到 的 概念 。 因 此 ， 我 们 希望 重用 那些 在 其 
他 领域 中 已 有 的 且 已 被 证 明成 功 的 缓存 策略 。 有 以 下 两 种 这 样 的 策略 : 

。 最 近 最 少 使 用 〈(LRU) 。 每 当 一 个 新 项 目 所 加 入 的 缓存 空间 已 满 时 ， 就 将 那个 最 长 时 
加 未 被 访问 的 项 目 从 缓存 中 剔除 。 

。 最 不 经 常 使 用 (LEFU) 。 每 当 一 个 新 项 目 所 加 入 的 缓存 空间 已 满 时 ， 就 将 那个 最 不 经 
常 使 用 的 项 目 〈 既 然 它 被 加 载 到 内 存 中 ) 从 缓存 中 剔除 。 

当 用 在 一 个 大 小 《几乎 ) 固定 的 对 象 集 上 时 ， 例 如 一 组 查询 的 前 k 个 搜索 结果 集 ， 
LRU 和 LEU 的 效果 都 相当 不 错 ， 但 是 当 把 这 两 种 策略 用 于 大 小 差异 很 大 的 对 象 集 上 时 ， 很 
快 就 会 达到 它们 的 极限 。 例 如 ， 如 果 简 单 地 将 LRU 应 用 到 上 一 节 所 述 的 三 级 缓存 中 ， 那 将 
会 有 超过 90% 的 缓存 被 位 置信 息 列 表 占 用 ， 原 因 很 简单 :位 置信 息 列表 比 交叉 列表 或 是 搜 
索 结 果 都 要 大 得 多 。 这 对 缓存 来 说 不 是 最 经 济 的 做 法 。 

2. 开销 感知 缓存 策略 

一 种 解决 上 述 问题 的 方法 是 : 将 缓存 分 割 成 三 个 桶 ， 每 个 对 应 一 级 缓存 。 每 个 桶 的 大 小 
都 根据 以 往 相 应 缓存 类 型 的 经 验 进 行 分 配 。 如 果 桶 的 大 小 选择 得 很 好 ， 这 种 方法 会 得 到 令 人 
满意 的 性 能 。 但 是 ， 我 们 还 能 做 得 比 这 更 好 。 基 本 观点 是 : 将 每 个 可 缓存 的 项 目 x 表示 成 
以 下 三 种 属性 : 

。 C, 表示 把 x 加 载 到 缓存 所 导致 的 开销 。 与 x 的 大 小 (以 字 节 为 单位 〉 成 一 定 比例 。 

。 9, 表示 缓存 x〈 比 不 缓存 x) 所 带 来 的 期 待 增益 。 根 据 x 的 类 型 〈 即 它 在 多 级 缓存 
中 的 层次 )， 这 可 能 是 一 个 查询 的 服务 时 间 ， 也 可 能 是 计算 一 个 交叉 列表 所 需 的 时 
间 ， 或 是 内 存 载 入 一 个 位 置信 息 列 表 所 需 的 时 间 。 

。 p, 表示 在 固定 周期 内 x 被 使 用 次 数 的 期 望 值 。 你 可 以 认为 ps 是 一 个 概率 。 

把 x 载 人 缓存 的 期 望 净 收 益 为 ， 

ENB(z) = 22-22 (13-16) 


Cx 
当然 ， 这 条 公式 不 受 搜 索引 擎 限制 。 开 销 感知 缓存 在 很 多 应 用 中 都 是 很 有 用 的 ， 包 括 
WWW 代理 (Cao 和 Irani, 1997). 
公式 (13-16) 隐 式 地 定义 了 缓存 策略 : 按 ENB 排 序 所 有 的 项 目 x; 将 前 n 个 项 目 存 储 
到 缓存 ， 选 择 适 当 的 n 使 得 前 % 条 项 目的 联合 大 小 不 超过 缓存 容量 。 这 种 缓存 策略 有 两 个 
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便利 的 性 质 。 第 一 ， 它 顺理成章 地 包含 了 13.4.1 节 中 讨论 的 三 种 项 目 类 型 。 第 二 ， 参 数 
Cry Ge Ap. 可 由 以 前 的 查询 日 志 估计 得 到 。 第 二 个 性 质 很 重要 ， 因 为 这 人 允许 我 们 将 ENB 
转变 为 一 个 静态 策略 ， 由 此 可 以 在 初始 化 阶段 就 把 前 n 个 项 目 预 加 载 到 缓存 中 。 假 设 查询 
的 分 布 和 查询 词 项 只 随 着 时 间 缓 慢 变化 ， 那 么 采用 静态 策略 可 以 接近 最 优 性 能 。 

有 了 时， 有些 人 会 争论 上 述 策略 是 次 优 的 ， 因 为 它 可 能 会 留 下 小 部 分 未 使 用 的 缓存 (内 部 
碎片 (internal fragmentation) ) 。 但 是 ， 这 种 争论 仅 是 理论 层面 上 的 。 实 际 上 ， 每 个 缓存 的 
项 目 相对 缓存 总 容量 来 说 都 是 很 小 的 ， 因 此 碎片 是 可 以 忽略 的 。 


13.43 MRR RAR 


如 果 我 们 能 够 访问 一 个 已 经 存在 的 查询 日 志 ， 就 可 以 用 它 来 预 取 我 们 期 望 不 久 就 会 被 请 

求 的 查询 的 结果 ， 即 使 它们 目前 还 不 在 缓存 中 。 例 如 ， 假 设 我 们 现在 用 搜索 引擎 查询 新 闻 、 
博客 或 是 其 他 对 时 间 敏 感 的 信息 ， 这 使 得 我 们 无 法 重用 缓存 超过 一 两 个 小 时 的 搜索 结果 。 每 
一 天 结束 后 ， 缓 存 命中 率 常 常 达到 30% ~40%， 但 这 时 我 们 的 用 户 去 睡觉 了 ， 流 量 就 会 降 
低 ， 到 了 早上 ， 缓 存 命中 率 就 可 能 接近 0 了。 
.， ”假设 明天 的 查询 与 今天 的 类 似 ， 我们 可 以 主动 提交 一 组 较 常 使 用 的 查询 ， 使 得 当 用 户 早 
上 醒 来 的 时 候 这 组 查询 的 结果 位 于 缓存 中 。 结 果 预 取 不 会 降低 搜索 引擎 的 整体 负载 ,但 由 于 
提高 了 用 户 查 询 的 缓存 命中 率 而 降低 了 平均 延迟 。 并 且 ， 也 有 助 于 减少 日 间 闲 时 和 忙 时 的 负 
载 差异 ， 当 搜索 引擎 接近 理论 吞吐 量 时 ， 这 是 非常 重要 的 。 

我 们 可 以 再 进一步 扩展 这 个 想法 ， 不 断 预 取 我 们 预料 在 一 天 中 的 某 个 时 段 中 将 被 发 出 的 
查询 的 结果 。Beitzel SA (2004) 对 来 自 商 业 Web 搜索 引擎 中 长 达 一 周 的 查询 日 志 进 行 了 
分 析 ， 发 现 “例如 ， 私 人 财务 查询 ， 在 早上 7 一 10 点 变 得 较 多 ， 而 音乐 查询 就 变 得 较 少 ”。 当 
然 ， 如 果 在 第 二 天 发 起 相同 查询 前 ， 缓 存 项 目 到 期 或 已 从 缓存 中 剔除 ， 预 取 策 略 才 是 有 用 的 。 


13.5 ”延伸 阅读 


Lilja (2000) 就 评价 计算 机 各 方面 性 能 作出 了 一 个 易于 理解 的 介绍 。 对 于 排队 论 更 深入 
的 讨论 ， 包 括 比 13. 2 节 中 简单 的 M/M/1 模型 更 高 级 的 模型 ， 请 参见 Gross 等 人 (2008) 
或 Kleinrock (1975) 的 论文 。 

在 13. 4. 1 节 中 讨论 的 三 级 缓存 是 由 Long 和 Suel (2005) 首次 提出 的 。 三 级 缓存 是 基 
F Saraiva $A (2001) 研究 的 二 级 缓存 的 。 

Baeza-Yates FA OOND 研究 了 几 个 关于 缓存 结果 和 位 置信 息 列 表 的 算法 ， 包 括 Qr 
Ds 算法 ， 一 种 近似 于 13. 4. 2 节 中 ENB 策略 的 算法 。Garcia (2007) 研究 了 大 量 的 缓存 策 
略 ， 包 括 开 销 感 知 算法 。Fagni SA (2006) 讨论 如 何 将 搜索 引擎 的 缓存 分 为 静态 部 分 和 动 
态 部 分 ， 并 对 各 个 部 分 使 用 不 同 的 算法 。 他 们 证 明了 混合 静态 /动态 缓存 比 纯粹 的 动态 或 静 
态 策 略 更 优 ， 因 为 混合 静态 /动态 缓存 既 利 用 了 以 前 的 静态 查询 ， 又 能 适应 不 断 变换 的 查询 
分 布 。Zhang 等 人 “2008) 研究 了 同时 采用 交叉 列表 缓存 和 索引 压缩 的 效果 。 

在 其 他 的 情况 下 ，TREC 组 织 者 将 针对 效率 的 任务 加 入 到 TREC 提出 的 普通 的 基于 有 效 
性 的 评价 中 。 这 样 的 努力 得 到 的 其 中 两 个 成 果 是 VLC (very large corpus， 非 常 大 的 语 料 
库 ) 和 TB (〈terabyte， 百 万 兆 字 节 ) 级 检索 。 它 们 均 出 现在 Hawking 和 Thistlewaite 
(1997), Hawking 等 人 (1998). Clarke 等 人 (2005) 和 Biittcher ÆA (2006) 的 论文 中 。 


13.6 练习 
练习 13. 1 假设 搜索 引擎 处 理 查询 的 速率 为 w 一 20 qps。 查 询 的 到 达 速 率 为 和 一 15 qps。 设 想 服 务 时 间 和 
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间隔 到 达 时 间 都 服从 指数 分 布 ， 那 么 搜索 引擎 的 平均 延迟 是 多 少 ? 延迟 超过 1 秒 的 查询 所 占 的 百分比 是 多 
少 ? 当 搜 索引 擎 处 理 99. 9 多 的 查询 的 延迟 均 低 于 1 秒 时 ， 最 大 吞吐 量 是 多 少 ? 
练习 13. 2 对 两 个 调度 算法 SF 和 DDS (13. 3 节 中 讨论 的 ) ， 请 分 别 给 出 一 个 延迟 开销 函数 
c: [0,co) 一 [0,oco) 
将 延迟 映射 到 开销 ， 并 使 每 条 查询 的 平均 开销 最 小 。 
练习 13. 3 考虑 一 个 无 限 查询 流 的 查询 分 布 服从 指数 定律 


, c 
P( 人 一 于 05 


其 中 pCi) oS i 个 最 频繁 的 查询 出 现 的 概率 ，c 是 一 个 常数 ， 使 得 这 1 p( 人 一 1。 使 用 静态 缓存 策略 ， 选 


择 1 000 000 个 最 频繁 出 现 的 查询 ， 那 么 可 以 通过 缓存 回答 的 查询 比例 是 多 少 ? 下 面 这 个 近似 可 能 是 有 
用 的 ， 
D i-7 0.5772 + | zdz 
i=1 1 
练习 13. 4 考虑 静态 缓存 策略 QrDr 。 该 策略 缓存 了 前 % 个 得 分 最 高 的 词 项 的 位 置信 息 列表 ， 其 中 词 
项 t 的 得 分 定义 如 下 : 


其 中 fo (ORT t 在 查询 (通过 现 有 的 查询 日 志 获 取 )〉 中 出 现 的 次 数 ， 而 N: 是 包含 词 项 的 文档 数量 。 
在 什么 条 件 下 ，Q Ds 等 价 于 13.4.2 节 中 的 ENB 策略 ? 
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并 行 信息 检索 


信息 检索 系统 常常 得 处 理 大 规模 的 数据 。 这 些 系统 需要 处 理 数 千 兆 乃至 数 兆 兆 字 节 级 的 
文本 ， 并 建立 和 维护 数 百 万 文档 的 索引 。 虽 然 第 5 一 8 章 介绍 的 技术 可 以 满足 这 种 需求 ; 但 
在 某 种 程度 上， 单单 靠 复 杂 的 数据 结构 和 巧妙 的 优化 方法 是 明显 不 够 的 。 仅 仅 一 台 计 算 机 所 
拥有 的 计算 和 存储 能 力 甚至 不 足以 索引 万 维 网 (Word Wide Web?) 上 的 一 小 部 分 网 页 。 

在 本 章 中 ， 我 们 将 介绍 各 种 大 规模 文本 集 〈 如 Web) 上 的 信息 检索 系统 的 构建 方法 。 
第 一 部 分 (14. 1 节 ) 关注 的 是 并 行 查询 处 理 ， 即 通过 使 用 多 个 索引 服务 器 来 处 理 多 个 同时 
到 达 的 查询 ， 从 而 提高 搜索 引擎 的 服务 效率 。 这 部 分 也 将 讨论 分 布 式 搜索 引擎 中 的 元 余 和 容 
错 问 题 。 在 第 二 部 分 (14.，2 节 )， 我 们 将 注意 力 转 到 离线 任务 的 并 行 执 行 上 ， 例 如 文本 语 料 
库 的 索引 构造 和 统计 分 析 。 之 后 我 们 将 介绍 一 种 用 于 处 理 大 量 数据 的 大 规模 并 行 计 算 框 架 
MapReduce 的 基础 。 l 


14.1 并 行 查询 处 理 


并 行 化 技术 可 以 通过 多 种 方式 来 帮助 搜索 引擎 更 快 地 处 理 查询 。 两 种 最 常用 的 方法 是 索 
引 划 分 (index partitioning) 和 复制 〈replication) 。 假 设 有 n 个 索引 服务 器 ， 以 标准 的 术语 
来 说 ， 将 索引 服务 器 称 为 节点 (node) 。 通 过 将 索引 复制 n 份 并 分 发 到 个 独立 的 节点 上 ， 
便 可 将 搜索 引擎 的 服务 速度 提高 4 倍 〈 在 理论 吞吐 量 下 ) ， 而 且 不 会 影响 单个 查询 所 需 的 时 
间 。 这 种 并 行 方式 称 为 查询 间 并 行 (inter-query parallelism) ， 因 为 多 个 查询 并 行 处 理 ， 但 单 
个 查询 还 是 顺序 处 理 的 。 另 一 种 方式 ， 我 们 将 索引 分 成 n 份 ， 每 个 节点 只 处 理 属于 它 的 那 
一 小 部 分 。 这 种 方法 称 为 查询 内 并 行 (intra-query parallelism)， 因 为 每 个 查询 都 由 多 个 服 
务 器 并 行 处 理 。 这 样 便 提 高 了 搜索 引擎 的 服务 速度 ， 以 及 每 次 查询 的 平均 时 间 。 

这 一 节 我 们 主要 关注 查询 内 并 行 。 我 们 研究 将 索引 划分 为 多 个 独立 的 部 分 的 索引 划分 方 
案 ， 使 得 每 个 节点 可 以 处 理 整体 索引 中 的 一 小 部 分 。 

有 两 种 主要 的 索引 划分 方案 : 文档 划分 (document partitioning) 和 词 项 划分 (term 
partitioning) (如 图 14-1 所 示 )。 在 文档 划分 索引 中 ， 每 个 节点 只 保存 文档 集中 一 个 子 集 的 
索引 。 例 如 在 图 14-1a 中 ， 节 点 2 维护 的 索引 包含 以 下 文档 编号 列表 : 

L,={4,6), L2=(5), La=(4), Ls=(6), L7=(4, 6) 








O 没有 人 知道 万 维 网 上 可 索引 网 页 的 确切 大 小 ， 估 计 至 少 有 1000 亿 个 网 页 。2005 年 8 月 ， 根 据 Yahoo! 最 新 公布 
的 数据 ， 它 索引 的 全 部 文档 数 达 到 了 192 亿 个 (http;//www.ysearchblog.com/archives/000172.html)。 
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在 词 项 划分 索引 中 ， 每 个 节点 只 负责 文档 词 项 集 的 一 个 子 集 。 如 图 14-1b 中 的 节点 1 包 
含 以 下 列表 : 
= (1,3,4,6,9),L2 = (2,5), Ls = (2,3,8) 
TT en tet 在 文档 划分 搜索 引擎 中 ，?% 个 节 
点 中 的 每 一 个 都 要 处 理 引 警 收 到 的 所 有 查询 。 而 在 词 项 划分 中 ， 只 有 当 节 点 上 的 索引 包含 查 
询 中 的 至 少 一 个 词 项 时 ， 该 节点 才 会 处 理 这 个 查询 。 


a) 文档 划分 b) 词 项 划分 
文档 er ba 








NE 
节点 1 节点 2 节点 3 


图 14-1 两 种 流行 的 索引 划分 方案 : 文档 划分 和 词 项 划分 〈 假 设 索引 包 
含 8 个 词 项 和 9 个 文档 ) 


14.1.1 文档 划分 


在 文档 划分 索引 中 ， 每 个 索引 服务器 只 负责 文档 集中 的 一 个 子 集 。 一 个 前 端 服务 器 接收 
来 自用 户 的 查询 ， 然 后 接收 服务 器 (receptionist〉 将 查询 转发 给 所 有 n 个 索引 节点 ， 等 待 
它们 处 理 查询 ， 并 把 索引 节点 上 返回 的 搜索 结果 合并 ， 把 最 后 的 结果 列表 返回 给 用 户 。 一 
文档 划分 搜索 引擎 示意 图 如 图 14-2 Bra. 





图 14-2 带 一 个 接收 服务 器 和 若干 个 索引 服务 器 的 文档 划分 查询 处 理 过 程 。 每 个 接收 到 的 查询 都 
转发 给 所 有 的 索引 服务 器 


文档 划分 方法 最 大 的 优点 在 于 简单 。 因 为 所 有 索引 服务 器 都 独立 运行 ， 并 且 在 低层 次 的 
查询 处 理事 务 中 也 没有 额外 的 复杂 需求 。 所 需 工 作 也 就 是 接收 服务 器 把 查询 转发 给 后 台 ， 然 
后 接收 分 别 从 n 个 节点 中 返回 的 前 丰 个 搜索 结果 ， 从 中 选 出 前 m 个 返回 给 用 户 Om 的 值 
通常 由 用 户 指定 ， 而 k 的 值 通常 由 搜索 引擎 使 用 者 决定 ) 。 除 了 转发 查询 和 搜索 结果 外 ， 接 
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收服 务 器 还 维护 一 个 缓冲 区 ， 用 来 存放 最 近 / 最 频繁 的 查询 结果 。 

如 果 搜 索引 擎 维护 的 是 一 个 允许 更 新 的 动态 索引 (如 文档 插入 /删除 );， 那 么 其 至 有 可 能 
在 分 布 式 的 方式 下 执行 更 新 ， 每 个 节点 只 需要 更 新 各 自 的 索引 就 可 以 了 。 这 种 方法 避免 了 复 
杂 的 涉及 整个 索引 的 集中 式 索 引 构 造 /维护 过 程 。 但 是 ， 只 有 当 各 文档 之 间 是 彼此 独立 的 情 
况 下 ， 这 种 方法 才 是 可 行 的 ;如 果 跨 文档 信息 ， 如 超 链 接 和 锚 文 本 ， 也 是 索引 的 一 部 分 内 
容 ， 那 这 种 方法 就 不 可 行 了 。 

当 决 定 如 何 将 文档 集 划 分 到 n 个 索引 节点 上 时 ， 一 种 可 能 的 方式 是 文档 -节点 分 配方 
式 一 一 例如 ， 将 相似 的 文档 保存 在 同一 节点 中 。 在 6. 3. 7 节 中 ， 我 们 已 经 知道 如 果 根 据 文档 
的 URL 对 文档 集中 的 文档 进行 重 排序 ， 就 可 以 更 好 地 压缩 索引 ， 因 此 具有 相似 URL 的 文 
档 就 会 有 相 邻 的 文档 编号 。 显 然 ， 如 果 闻 域 网 页 被 分 配 到 同一 节点 上 ， 那 么 这 种 方法 是 最 有 
效 的 。 但 这 种 方法 的 问题 在 于 有 可 能 造成 索引 服务 器 的 负载 不 均衡 。 如 果 给 定 节 点 主要 包含 
某 一 主题 的 相关 文档 ， 当 这 个 主题 突然 变 得 很 受 欢迎 时 ， 那 么 这 个 节点 的 查询 处 理 负载 就 会 
大 大 高 于 其 他 节点 。 最 后 就 会 导致 可 用 资源 不 能 得 到 最 大 利用 。 为 了 避免 这 个 问题 ， 通 常 最 
好 的 做 法 就 是 不 要 什么 额外 的 操作 ， 只 是 简单 地 将 文档 集 划 分 为 n 个 完全 随机 子 集 。 

当 索 引 划 分 好 后 ， 每 个 子 索 引 就 加 载 到 其 中 一 个 节点 中 去 ， 接 下 来 就 要 决定 每 个 节点 的 
返回 集 大 小 的 值 。 如 何 根据 用 户 指 定 的 返回 结果 个 数 m 来 选择 呢 ? 假设 用 户 要 求 返回 
m=100 个 结果 。 为 了 保险 起 见 ， 我 们 可 以 让 每 个 索引 节点 都 返回 上 一 100 个 结果 ， 确 保 接 
收服 务 器 能 接收 到 整体 文档 集 上 排名 前 100 的 结果 。 但 是 ， 因 为 以 下 两 个 原因 ， 这 不 是 一 个 
好 的 决定 : 

1) 不 太 可 能 所 有 前 100 个 结果 都 来 自 同 一 个 节点 。 每 个 索引 服务 器 都 返回 100 个 结果 
给 接收 服务 器 ， 就 得 耗费 许多 不 必要 的 负载 。 

2) 对 于 执行 如 MAXSCORE (参见 5.1.1 节 ) 这 样 的 启发 式 策略 ， 上 的 取 值 对 于 查询 
处 理性 能 有 很 大 的 影响 。 表 5-1 说 明了 当 在 GOV2 的 词 频 索 引 上 进行 查询 时 ， 结 果 集 大 小 从 
k=100 减少 到 k=10 时 ， 每 个 查询 的 平均 CPU 时 间 减 少 了 15% 左 右 。 

给 定 索 引 服务 器 的 个 数 n 和 每 节点 返回 集 大 小 k，Clarke 和 Terra (2004) 提出 了 一 种 “ 
方法 ， 可 计算 接收 服务 器 能 收 到 整体 文档 集 前 m 个 结果 的 概率 。 他 们 的 方法 基于 这 样 的 假 
设 : 当 文 档 集 被 分 为 n 个 子 集 后 ， 每 个 文档 被 随机 分 配 到 一 个 索引 节点 上 ， 则 每 个 节点 以 
相同 概率 返回 整体 文档 集 上 前 1、2、3…… 个 最 好 的 结果 。 

考虑 由 前 m 个 搜索 结果 组 成 的 集合 民 Rn 二 人 {71,7s…,7?m}。 对 于 每 一 个 文档 ri WRD 
节点 找到 的 概率 是 1/%。 因 此 ， 前 m 个 结果 中 的 1 个 被 该 节点 找到 的 概率 满足 如 下 的 二 


分 布 : 
b(n, m,1) -(") . (2) . @ - “yn (14-1) 


如 果 要 求 n 个 索引 节点 均 返 回 前 个 结果 ， 集 合 尺 。 中 所 有 成 员 被 找到 的 概率 可 以 通过 以 
下 递归 公式 计算 : 
1 4m <k 


0 - 
p(nm, kh)= °, 车 m>k Hn=1 (14-2) 


J b(n, m, 1) -pn — 1,m— 1,k) #m>k 日 n>1 
1=0 


前 两 种 基本 情况 显而易见 。 在 递归 情况 中 ， 考 虑 系统 的 第 一 个 节点 ， 计 算 由 这 个 节点 返回 整 
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体 文档 集 上 前 m 个 结果 中 的 1 二 0，1，2，…,， 个 的 概率 (CAD b(n,m,1))。 对 于 1 的 每 
个 可 能 取 值 ， 这 个 概率 都 要 乘 以 p(n 一 1,m 一 lk)， 即 及 mw PRE m 一 1 个 文档 被 其 他 
的 nw 一 1 个 索引 节点 发 现 的 概率 。 公 式 (14-2) 看 起 来 没有 一 个 闭合 形式 的 解 ， 但 可 以 通过 
复杂 度 为 (n,m ,及 ) 的 动态 规划 来 解决 。 

图 14-3 给 出 了 以 
99. 9 锡 以 上 的 概率 找到 前 m 
个 结果 时 单个 节点 所 需 检索 
的 深度 kk。 对 于 m=100 和 
4 一 4， 单 个 节点 检索 深度 
kk 一 41 就 能 达到 预期 概率 水 
平 。 如 果 放 松 正确 率 要 求 ， 
从 99. 9% BEB 95%, BA k 


单个 节点 的 检索 深度 





就 可 以 从 41 减少 到 35, 

有 时 候 根 据 不 同 的 m 0 20 40 60 80 100 
值 来 优化 检索 深度 会 更 目标 结果 和 集 的 大 小 (m) 
好 ， 而 不 是 由 用 户 指定 。 例 图 14-3 选择 最 小 的 检索 深度 ， 使 得 返回 前 m 个 结果 的 概率 p(n， 
如 ， 如 果 接 收服 务 器 为 最 近 M, k) 99.9%, HEP n 为 文档 划分 索引 中 的 节点 数量 


发 起 的 查询 维护 一 个 缓冲 区 ， 对 于 一 个 给 定 查询 ， 即 使 用 户 指定 只 要 前 10 个 结果 ， 还 是 有 
必要 维护 前 20 个 结果 ， 这 样 点 击 “ 下 一 页 ”时 可 以 直接 从 缓冲 区 里 得 到 结果 。 人 允许 接收 服 
务 器 检查 结果 集 及 x (m'>m) 也 是 非常 有 用 的 ， 因 为 这 样 更 便于 应 用 多 样 性 搜索 重 排 技 . 
术 ， 如 Carbonell 和 Goldstein (1998) 提出 的 最 大 边界 相关 法 (maximal marginal rele- 
vance) 或 是 Google 的 启发 式 密集 主机 S Chost crowding). 


14.1.2 iW DRS 


虽然 文档 划分 通常 是 不 错 的 选择 ， 而 且 与 节点 数量 成 线性 关系 ， 但 只 有 单个 节点 上 的 索 
引 数 据 都 存储 在 内 存 或 低 延迟 的 可 随机 访问 的 存储 介质 中 〈 如 闪存 ) ， 这 个 方法 才能 发 挥 最 
大 的 潜力 ， 如 果 数 据 存储 在 磁盘 里 ， 情 况 就 不 是 这 样 了 。 

考虑 一 个 文档 划分 搜索 引擎 ， 所 有 的 位 置信 息 列 表 都 存储 在 磁盘 上 。 假 设 每 个 查询 平均 
包含 3 个 单词 ， 我 们 希望 搜索 引擎 可 以 处 理 的 峰值 查询 负载 为 每 秒 钟 100 个 查询 (100 
qps)。 回 忆 13. 2. 3 节 的 内 容 ， 因 为 排队 效应 ， 利 用 率 通 常 不 能 超过 50% ， 除 非 可 以 忍受 经 
常 性 的 延迟 跳动 。 因 此 ， 查 询 负载 100 aps 转换 成 对 应 的 服务 器 速度 就 是 至 少 200 gps 或 等 
价 于 每 秒 钟 600 次 的 随机 访问 操作 〈 每 个 操作 对 应 一 个 查询 词 项 )。 假 设 平均 磁盘 寻 道 延 迟 
是 10 ms， 单 个 硬盘 驱动 器 每 秒 不 能 超过 100 次 随机 访问 操作 ， 只 达到 期 望 符 吐 量 的 1/6, 
我 们 试图 通过 为 每 个 节点 增加 硬盘 来 突破 这 个 限制 ， 但 是 为 每 个 服务 器 都 装配 6 个 硬盘 不 太 
实际 。 而 且 ， 不 管 增加 多 少 节点 到 系统 中 ， 系 统 都 处 理 不 了 每 秒 几 百 个 查询 的 负载 。 

词 项 划分 通过 把 文档 集 划 分 成 词 项 集 ， 而 不 是 文档 集 ， 来 解决 磁盘 寻 道 问题 。 每 个 索引 
节点 v; 只 负责 某 个 特定 词 项 集 7;， 只 有 当 给 定 查询 包含 的 词 项 属于 Ti 时 ， 该 节点 才 会 处 理 
这 个 查询 。 我 们 关于 词 项 划分 查询 处 理 的 讨论 是 基于 Moffat A (2007) 提出 的 流水 线 架 
构 。 这 种 架构 中 ， 查 询 以 “term-at-a-time” 的 方式 来 处 理 〈 具 体 细节 可 参见 5. 1. 2 节 中 介绍 
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的 term-at-a-time 的 查询 处 理 策 略 ) 。 

假设 查询 包含 9 个 词 项 ti ，t;，…，t。。 那 么 接收 服务 器 把 查询 转发 给 负责 词 项 ti 的 
节点 vt). At, 的 位 置信 息 列表 中 创建 一 组 文档 得 分 累加 器 后 ，wv (ti ) 将 查询 和 这 组 累加 
器 一 起 转发 给 词 项 ts 的 节点 v(t,)，wv (ts) 更 新 累加 器 集合 ， 然 后 传 给 v(t，)， 依 次 类 推 。 
当 流 水 线 的 最 后 一 个 节点 v(t,) 也 完成 后 ， 就 把 最 终 的 累加 器 集合 传 给 接收 服务 器 。 接 收服 
务 器 从 中 选择 前 m 个 搜索 结果 返回 给 用 户 。 这 个 方法 的 示意 图 如 图 14-4 Bra. 





; x 


图 14-4” 词 项 划分 查询 处 理 方案 : 带 1 个 接收 服务 器 和 4 个 索引 服务 器 。 根 据 查询 中 的 词 
项 (图 中 查询 包含 3 个 词 项 ) ， 每 个 查询 在 索引 服务 器 之 间 传 递 


很 多 用 于 顺序 term-at-a-time 查询 处 理 的 优化 也 同样 适用 于 词 项 划分 查询 处 理 : 首先 处 
理 不 频繁 词 项 ， 可 用 累加 器 裁剪 策略 维护 累加 器 集合 的 大 小 ， 从 而 使 全 局 网 络 流量 得 到 控 
制 ; 使 用 影响 力 排序 (impact ordering) 可 以 有 效 确定 一 个 给 定 词 项 最 重要 的 位 置信 息 。 

注意 到 ， 上 述 流水 线 查 询 处 理 架 构 并 不 适用 于 查询 内 并 行 ， 因 为 每 个 查询 在 每 个 阶段 只 
由 一 个 节点 负责 。 因 此 ， 尽 管 这 里 描述 的 简单 形式 的 词 项 划分 有 助 于 提高 系统 的 理论 吞吐 
量 ， 但 却 不 能 降低 搜索 引擎 的 响应 时 间 。 如 果 接 收服 务 器 转发 查询 给 v(t1) 的 同时 也 预 取 指 
令 传 给 v(t,)，…,v(t,)， 可 在 一 定 程度 上 解决 这 个 问题 。 当 节点 v(t;) 接 收 到 累加 器 集合 
时 ， 部 分 t; 的 位 置信 息 可 以 已 经 加 载 到 内 存 ， 从 而 查询 的 处 理 就 更 快 了 。 

尽管 词 项 划分 潜在 的 性 能 优 于 文档 划分 方法 (至 少 在 磁盘 索引 上 是 这 样 )， 但 也 存在 一 
些 缺 点 使 得 这 种 方法 在 实际 应 用 中 难以 采用 ， 

。 可 扩展 性 。 当 文档 集 更 大 时 ， 每 个 位 置信 息 列表 也 会 变 大 。 对 于 一 个 包含 十 亿 个 文 
档 的 语料库 来 说 ， 一 个 频繁 词 项 的 位 置信 息 列表 很 容易 就 达到 几 百 兆 字 节 ， 如 
“computer” 或 “internet”。 处 理 一 个 包含 几 个 类 似 这 样 的 高 频 词 的 查询 至 少 需 要 几 
秒 ， 这 是 大 多 数 用 户 所 不 能 忍受 的 。 为 了 解决 这 个 问题 ， 需 要 将 长 位 置信 息 列表 分 
割 为 多 个 小 块 并 分 到 不 同 节点 上 去 ， 每 个 节点 负责 位 置信 息 列 表 的 一 小 部 分 且 并 行 
工作 。 但 是 ， 这 使 得 查询 处 理 逻 辑 变 得 复杂 了 。 
负载 均衡 。 词 项 划分 受到 索引 节点 间 负 载 不 均衡 的 困扰 。 对 应 单个 词 项 的 负载 是 该 
词 项 在 文档 集 和 用 户 查 询 中 词 频 的 函数 。 如 果 词 项 的 位 置信 息 列表 非常 长 ， 并 且 在 
检索 查询 中 也 常 出 现 ， 那 么 对 应 的 索引 节点 的 负载 会 比 系统 中 的 平均 负载 要 高 。 为 
了 解决 这 个 问题 ， 引 起 高 负载 的 位 置信 息 列表 就 要 复制 并 分 发 到 多 个 节点 上 。 这 样 ， 
与 该 词 项 相关 的 计算 负载 就 由 多 台 机 器 共同 负担 ， 但 这 样 增加 了 存储 需求 的 成 本 。 
。 term-at-a-time。 词 项 划分 方法 最 严重 的 问题 可 能 在 于 它 无 法 支持 高 效 的 document- 
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at-a-time 查询 处 理 。 为 了 在 词 项 划分 索引 的 顶部 计算 document-at-atime 的 得 分 ， 
“与 裁剪 累加 器 集合 相反 ， 整 个 位 置信 息 列表 都 要 在 网 络 中 传递 。 由 于 位 置信 息 列表 
非常 庞大 ， 因 此 这 是 非常 不 实际 的 。 因 此 ，document-at-a-time 的 排名 方法 ， 如 
2. 2. 2 节 中 的 邻近 度 排名 函数 ， 也 不 适用 于 词 项 划分 索引 。 
即便 有 这 些 缺 点 ， 词 项 划分 有 时 也 是 一 个 不 错 的 选择 。 例 如 ， 回 忆 13. 4. 1 节 中 的 三 级 
缓冲 模型 。 第 二 级 缓冲 的 是 列表 的 交集 (参见 2. 2 节 ， 带 布尔 AND 查询 语义 的 搜索 引擎 ) 。 
我 们 不 选用 文档 划分 方法 ， 因 为 需要 为 每 一 个 节点 配备 一 个 交集 缓冲 区 ， 这 时 便 可 选择 词 项 
划分 索引 并 把 缓存 的 列表 交集 视 为 普通 的 位 置信 息 列表 一 样 处 理 。 如 图 14-4 展现 的 例子 ， 
如 果 我 们 之 前 查询 过 ‘ti ，t;，， 那 么 在 节点 vt) 的 缓冲 区 中 就 有 《所 人 二 》 的 交集 列表 ; 
当 处 理 一 个 新 的 查询 (ti, te, ta) 时， 就 可 以 跳 过 节点 v(t). 
更 一 般 的 情况 ， 如 果 位 置信 息 列表 相对 比较 得 ， 无 论 是 本 身 所 代表 的 信息 比较 短 〈 例 
如 ， 列 表 交 集 》 还 是 人 为 缩短 了 〈 例 如 ， 运 用 了 索引 裁剪 技术 ， 具 体 可 参见 5. 1. 5 节 )， 词 
项 划分 更 是 一 个 不 错 的 选择 。 


14.1.3 ”混合 方案 


考虑 一 个 n 个 节点 的 分 布 式 索 引 和 大 小 为 |c| 的 文档 集 。 当 |c|/w2 很 小 时 ， 磁 盘 寻 道 是 
整个 查询 处 理 中 的 主要 耗费 ， 此 时 文档 划分 的 效率 就 比较 低 。 但 是 ， 当 |c| 很 大 时 ， 用 词 项 
划分 处 理 一 个 查询 所 需 时 间 又 长 得 难以 忍受 。 

Xi 等 人 (2002) 提出 了 一 种 混合 的 架构 ， 通 过 一 种 标准 的 文档 划分 模式 将 文档 集 划分 
为 p 个 子 集 。 每 个 子 集 的 索引 在 n/p 个 节点 上 进行 词 项 划分 ， 使 得 系统 中 的 每 个 节点 只 负 
责 p 个 子 集 之 一 的 词 项 集 的 出 现 。 在 合适 的 负载 均衡 策略 下 ， 可 以 使 吞吐 量 增加 n f F 
道 延 迟 减 少 p. 

作为 混合 词 项 /文档 划分 的 一 个 替代 方案 ， 我 们 也 可 考虑 混合 文档 划分 和 复制 。 注 意 词 
项 划分 的 主要 目标 是 增加 吞吐 量 ， 而 不 是 减少 延迟 。 因 此 ， 我 们 不 在 p 个 子 索引 上 进行 词 
项 划分 ， 而 是 通过 简单 地 将 每 个 子 索引 复制 n/p 次 并 在 n/p 个 完全 一 样 的 副本 中 实现 查询 
的 负载 均衡 ， 也 能 获得 同样 的 性 能 水 平 。 在 一 些 高 端的 应 用 中 ，2003 年 Google 就 采用 了 这 
种 索引 布局 (Barroso 等 人 ，2003) 。 通 过 这 种 方法 ， 全 局 最 大 吞吐 量 和 平均 延迟 就 大 致 和 
混合 文档 / 词 项 划分 的 情况 相同 。 但 由 于 需要 n/p 次 复制 ， 存 储 需 求 就 有 点 高 。 如 果 索 引 存 
储 在 磁盘 上 ， 那 就 不 成 问题 了 。 


14.1.4 元 余 和 容错 


对 于 一 个 拥有 成 千 上 万 用 户 的 大 规模 搜索 引擎 ， 可 靠 性 和 容错 与 响应 时 间 和 检索 质量 同 
样 重要 。 为 了 得 到 更 高 的 查询 负载 ， 我 们 给 搜索 引擎 增加 机 器 数量 ， 那 么 越 来 越 有 可 能 在 某 
一 时 刻 菜 台 机 器 会 出 错 。 如 果 设 计 系统 时 考虑 了 容错 功能 ， 那 么 单个 机 器 的 出 错 对 吞吐 量 和 
检索 质量 只 会 有 微小 的 影响 。 而 如 果 设 计 系 统 时 没有 考虑 容错 功能 ， 一 个 错误 就 可 能 使 搜索 
引擎 无 法 工作 。 

我 们 在 一 个 32 个 节点 的 分 布 式 搜索 引擎 中 比较 简单 的 无 复制 的 文档 划分 和 词 项 划分 方 
案 。 如 果 词 项 划分 索引 中 的 某 个 节点 出 错 了 ， 那 么 搜索 引擎 就 不 能 处 理 包含 任何 一 个 由 这 个 
节点 管理 的 词 项 的 查询 了 。 不 包含 这 些 词 项 的 查询 则 不 受 影响 。 对 于 一 个 包含 3 个 词 项 的 随 
机 查询 9 (Web 查询 的 平均 词 项 个 数 ) q 仍 能 被 剩 下 的 31 个 节点 处 理 的 概率 为 ; 
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1\3 , 
(5) ~ 90.9% (14-3) 


如 果 文 档 划 分 索引 中 的 某 个 节点 出 错 了 ， 搜 索引 擎 仍 能 处 理 所 有 的 查询 ， 但 是 会 丢失 一 
些 搜 索 结果 。 如 果 划 分 是 无 偏 的 ， 则 对 于 一 个 随机 查询 而 言 ， 前 万 个 结果 中 遗漏 了 7 个 的 概 


率 是 
Ak 1AN /31\*-9 
(;)- (za) G) at 
因此 前 10 个 结果 不 受 这 个 出 错 影 响 的 概率 为 
31 10 
(3) = 72.8% 4-5) 
由 此 可 以 看 出 ， 机 器 出 错 对 词 项 划分 索引 的 影响 比 文档 划分 索引 的 影响 要 低 。 然 而 ， 这 样 的 
比较 有 些 不 公平 ， 因 为 不 能 处 理 1 个 查询 比 丢 失 前 10 个 结果 中 的 1 个 要 严重 得 多 。 如 果 我 
们 考察 因为 索引 节点 失效 而 导致 前 10 个 结果 中 至 少 丢 失 2 PAR, A: 


31\'° /10 1 31\° 
-(2)" (9). (4). (am as 

因此 ， 由 单个 节点 出 错 而 对 一 个 查询 造成 严重 影响 的 概率 是 非常 小 的 ， 大 多 数 用 户 不 太 会 注 
意 到 其 中 的 差别 。 根 据 这 一 论点 ， 单 节点 失效 的 情况 下 文档 划分 索引 比 词 项 划分 索引 性 能 下 
peig. 

对 于 多 个 相关 结果 的 信息 式 查询 ， 这 种 方式 足够 好 了 。 但 对 于 导航 式 查询 则 不 然 〈 参 见 
15. 2 节 介 绍 的 关于 信息 式 查询 和 导航 式 查 询 的 不 同 )。 以 一 个 导航 式 查询 “white”, 
“house”,“website” 为 例 。 这 个 查询 上 共有 一 个 重要 结果 (http: //www. whitehouse. 
gov/)， 必 须 (must) 出 现在 搜索 结果 的 最 前 面 。 如 果 文 档 划 分 索引 的 32 个 节点 中 有 一 个 
出 错 了 ， 则 对 于 每 个 导航 式 查 询 都 有 3. 2% 的 概率 会 丢失 这 个 最 重要 的 结果 〈 如 果 对 于 该 查 
询 只 有 一 个 最 重要 的 结果 )。 有 很 多 方法 可 以 解决 这 个 问题 ， 常 用 的 有 以 下 3 种 : 

。 Sil (Replication): 如 前 一 节 所 提 到 的 混合 划分 方案 ， 我 们 可 为 同一 个 索引 节点 维 
护 多 个 副本 ， 并 让 它们 并 行 地 处 理 查询 。 如 果 给 定 索引 节点 的 ” 个 副本 中 有 一 个 失 
效 了 ， 剩 下 的 7 一 1 个 节点 就 会 分 担 丢 失 副 本 的 负载 。 这 种 方法 优点 在 于 简单 易 行 
《并 可 同时 提高 吞吐 量 和 容错 能 力 ) 。 缺 点 在 于 如 果 正 在 运行 的 系统 已 接近 理论 吞吐 
量 ， 并 且 r 值 很 小 时 ， 剩 下 的 7 一 1 个 副本 将 会 超载 。 
部 分 复制 (Partial Replication): 不 是 将 整个 索引 复制 7 份 ， 而 是 只 复制 那些 重要 文 
档 的 索引 信息 。 这 个 策略 背后 的 意义 是 大 多 数 搜索 结果 并 不 重要 ， 很 容易 使 用 等 价 
的 相关 文档 取代 它们 。 这 种 方法 的 缺点 是 很 难 预测 哪些 文档 是 导航 式 查询 的 目标 。 
如 PageRank (15. 3. 1 节 ) 这 样 的 查询 独立 的 信号 还 是 能 提供 一 些 指 引 的 。 
休眠 复制 (Dormant Replication); 假设 搜索 引擎 由 % 个 节点 组 成 。 我 们 将 每 个 节点 
v 上 的 索引 都 分 为 % 一 1 个 片段 并 平均 分 发 到 其 他 的 n1 个 节点 中 ， 但 不 使 用 它们 
来 处 理 查询 ， 而 是 让 它们 〈 在 磁盘 上 ) KER. RASA vi 失效 时 ， 相 应 的 n—1 
个 片段 才 被 激活 并 被 载 人 内 在 以 处 理 查询 。 将 片段 载 人 到 内 存 中 是 非常 重要 的 ， 否 
则 每 次 查询 引起 的 磁盘 寻 道 总 数 将 加 倍 。 由 于 每 个 节点 的 副本 都 存储 到 另外 ?一 1 
个 节点 上 ， 休 眼 的 副本 将 使 存储 开销 增加 一 倍 。 
联合 上 面 的 策略 也 是 有 可 能 的 一 一 例如 休眠 部 分 索引 的 副本 。 我 们 不 是 复制 给 定 节点 上 
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的 所 有 索引 ， 而 是 只 为 该 节点 上 的 重要 文档 复制 副本 。 这 就 既 减 少 了 存储 开销 ， 又 减少 了 因 
节点 失效 而 对 搜索 引擎 的 吞吐 量 造成 的 影响 。 


14.2 MapReduce 


除了 处 理 搜索 查询 ， 还 有 很 多 数据 密集 型 任务 需要 用 到 大 规模 搜索 引擎 。 这 些 任务 包 
括 : 建立 并 更 新 索引 ， 找 出 语料库 中 的 重复 文档 分 析 文 档 集 的 链接 结构 (如 PageRank, 
参见 15. 3. 1 节 )。 

MapReduce 是 由 Google 开发 的 一 个 框架 ， 为 大 量 数据 (2+ TB 级 数据 ) 的 高 度 并 行 
计算 〈 上 千 台 机 器 ) 而 设计 ， 可 完成 以 上 各 种 任务 。MapReduce 最 初 由 Dean 和 Ghemawat 
(2004) 提出 。 他 们 的 论文 除了 对 MapReduce 的 框架 提出 了 高 度 的 概括 ， 还 包含 了 很 多 有 趣 
的 实施 细节 和 性 能 优化 的 信息 。 


14.2.1 基本 框架 


MapReduce 的 灵感 来 自 于 编程 语言 (如 Lisp) 中 的 map 和 reduce KAk. map 函数 以 一 
个 函数 f 和 一 个 元 素 列 表 /=(1,12,…, ln) 作为 输入 参数 ， 它 返回 一 个 新 的 列表 : 
map(f,l) = (f(li), Fl), ++, f(ln)) (14-7) 
reduce 函数 (BPR AP HE (fold) RRA 〈accumulate))， 以 一 个 函数 g 和 一 个 元 素 列 
表 ! 王 (1,12,… ,ln) 作 为 输入 参数 ， 并 返回 一 个 新 的 元 素 V: 
l=reduce(g, l) =g{(l1, g(l2, g(ls, ---))) (14-8) 
当 讨 论 到 MapReduce 中 的 map 函数 时 ， 通 常 是 指 传人 map (map 由 框架 提供 ) 的 函数 
f. 同样 ， 当 提 到 reduce 函数 时 ， 通 常 是 指 传人 reduce 的 函数 g。 下 面 我 们 将 会 遵照 这 个 
约定 。 
概括 来 说 ， 一 个 MapReduce 程序 (通常 简称 MapReduce) 的 流程 就 是 先 读 入 一 个 “ 键 
/ 值 对 序列 ， 然 后 再 执行 一 些 运算 ， 输出 另 一 个 〈 键 / 值 对 序列 。 关 键 字 和 特征 值 通 常 是 
字符 串 ， 但 实际 上 可 以 是 任何 类 型 。MapReduce 由 三 个 步骤 组 成 : 
。 map 阶段 ， 读 人 “〈 键 / 值 ， 对 ， 在 两 个 字段 上 分 别 运用 map 函数 。 函 数 的 一 般 形 式 如 下 : 
map : (k, v) (k1, 01), (ke, v2), =) (14-9) 
也 就 是 对 于 每 个 〈 键 / 值 XT, map 输出 一 个 〈 键 / 值 〉 对 序列 。 这 个 序列 有 可 能 为 空 ， 
也 有 可 能 不 为 空 ， 并 且 输 出 的 关键 字 也 不 一 定 就 和 输入 的 关键 字 不 一 样 (虽然 通常 是 不 一 样 
的 ) 。 
。 shuffle 阶段 ， 根 据 关 键 字 对 map 阶段 输出 的 每 个 〈 键 / 值 ， 对 进行 排序 ， 并 且 将 关 
键 字 相同 的 特征 值 都 聚集 在 一 起 。 
。 reduce 阶段 ， 在 每 一 个 关键 字 和 它 对 应 的 特征 值 上 运用 reduce 函数 。 函 数 的 一 般 形 
RUF: 
reduce : (k, (v1, V2,---)) ++ (k, (viva) (14-10) 
也 就 是 ， 对 每 一 个 关键 字 ，reduce 函数 处 理 对 应 的 特征 值 列 表 并 输出 另 一 个 特征 值 列 
表 。 输 出 特征 值 和 输入 特征 值 有 可 能 相同 ， 也 有 可 能 不 同 。 但 输出 关键 字 通 常 和 输入 关键 字 
必须 是 一 样 的 ， 这 依赖 于 具体 实现 。 
图 14-5 给 出 了 一 个 统计 给 定 的 文本 语料库 中 所 有 词 项 出 现 次 数 的 MapReduce 的 map 和 
reduce PAM, Æ reduce 函数 中 ， 如 果 输 出 关键 字 和 输入 关键 字 一 样 ， 则 可 以 忽略 。 
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map (k, v) = reduce (k, (v1, v2,...,Un)) = 
split v into tokens count — 0 
for each token ¢ do for i — 1 to n do 


output(t, 1) count — count + vi 
return output(count) 
return 





图 14-5 对 于 给 定 的 文本 语料库 ，MapReduce 统计 每 个 词 项 出 现 的 次 数 。map 函数 处 理 的 输入 值 是 
文档 或 其 他 文本 片段 。 这 里 忽略 了 输入 关键 字 。MapReduce 的 输出 是 一 个 “〈t， 访 ) 元 组 
的 序列 ， 其 中 ， tM, fi 是 上 在 输入 中 出 现 的 次 数 


MapReduce 是 可 以 高 度 并 行 化 的 ， 因 为 map 和 reduce 都 可 以 在 很 多 不 同 的 机 器 上 并 行 
执行 。 假 设 共 有 n=m+r 台 机 器 ， 其 中 m 为 map 工作 机 群 Cnap worker) 的 数量 ，7 为 
reduce 工作 机 群 (reduce worker) 的 数量 。MapReduce 的 输入 被 划分 成 多 个 称 为 map 碎片 
(map shard) 的 小 块 。 每 个 碎片 通常 为 16 MB~64 MB。 每 个 碎片 都 被 分 派 给 m 个 map T 
作 机 群 中 的 一 个 来 单独 处 理 。 在 大 型 的 MapReduce 中 ， 每 个 map 工作 机 通常 需要 处 理 数 十 
乃至 上 百 个 碎片 。 一 个 工作 机 通常 一 次 只 处 理 一 个 碎片 ， 所 以 同 个 工作 机 中 的 碎片 只 能 被 顺 
序 处 理 。 但 是 ， 如 果 工 作 机 是 多 核 的 ， 就 可 以 并 行 处 理 多 个 碎片 以 提高 性 能 。 

在 相似 的 模式 下 ， 输 出 也 被 划分 成 独立 的 reduce 碎片 (reduce shard), HP reduce 碎 
片 数量 通常 和 reduce 工作 机 群 数量 * 相同 。 每 个 由 map 函数 产生 的 〈 键 / 值 》 对 都 会 传 给 一 

个 reduce Cn 通常 是 根据 关键 字 来 将 给 定 的 《 键 / 值 > 对 分 配给 对 应 的 碎片 。 例如 ， 如 果 
我 们 有 7 个 reduce MH, Bh [fi 
(E/E) ae 目标 碎片 可 以 通 
过 下 面 的 式 子 来 选择 

shard(key, value)=hash(key) mod r, 

(14-11) 
, 其 中 hash 函数 可 以 随意 选择 。 以 
这 种 方式 将 map 的 输出 分 配给 re- 
duce 碎片 可 以 保证 同一 个 关键 字 的 
所 有 特征 值 都 在 同一 个 reduce 碎 
片 中 。 在 每 个 reduce 碎片 内 部 ， 
根据 关键 字 对 输入 的 〈 键 / 值 ; 对 
进行 排序 (在 shuffle 阶段 中 )， 并 
把 排序 结果 传 给 reduce Kt, P7 
生 MapReduce 的 最 终结 果 。 

图 14-6 中 展示 了 图 14-5 中 相应 
的 MapReduce 的 数据 流 ， 数 据 源 是 
摘自 莎士比亚 文集 的 三 个 小 文本 片 ative’, <i>] Lt] || |[Pnor, <1.1> “question, <i> 
段 。 每 个 片段 代表 一 个 独立 的 map 
碎片 。 把 map 工作 机 群 输出 的 〈 键 / 
{A> Xt, AGE BES hash 值 划 分 
到 三 个 reduce 碎片 中 。 在 该 例 中， 
假设 hash (“heart”) mod 3=0, hash 
(“soul”) mod 3 二 1]， 依 次 类 推 。 
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图 14-6 ”对 应 图 14-5 中 的 MapReduce 的 数据 流 ， 使 用 3 个 
map 碎片 和 3 个 reduce 碎片 
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map 阶段 的 工作 可 能 和 shuffle Hr RH, shuffle 阶段 的 工作 也 可 能 和 reduce 阶段 重 
Æ. {Ai map 阶段 和 reduce 阶段 的 工作 是 不 可 能 重 倒 的。 因为 redcue KARAER EAR 
字 的 所 有 特征 值 都 已 获得 的 情况 下 ， 才 会 被 调用 。 由 于 一 般 不 可 以 预测 map 工作 机 群 传输 
的 关键 字 ， 所 以 reduce 阶段 就 不 可 能 在 map 阶段 完成 前 开始 。 


14.2.2 合并 


在 很 多 MapReduce 任务 中 ， 对 应 同一 个 关键 字 的 一 个 map 碎片 可 能 产生 大 量 的 〈 键 / 
值 》 对 。 例 如 ， 如 果 我 们 使 用 图 14-5 中 的 MapReduce 程序 来 处 理 一 个 典型 的 英语 文本 语 
料 ， 那 么 6 多 一 7 多 的 关键 字 将 是 “the”。 转 发 所 有 类 似 “the” 这 样 的 元 组 给 reduce 工作 机 
群 ， 将 造成 网 络 资源 和 存储 资源 的 浪费 。 更 重要 的 是 ， 它 造成 了 整个 负载 分 布 的 极 不 平衡 。 
不 管 有 多 少 reduce 工作 机 群 ， 它 们 中 的 某 个 将 需要 承载 总 体 reduce 工作 的 7%. 

为 了 解决 上 述 问 题 ， 我 们 修改 map 工作 机 群 ， 让 它们 可 以 累加 在 本 地 hash 表 中 每 个 碎 
片 的 词 项 数量 ;并 在 结束 当前 碎片 时 以 (t，f1) 的 格式 输出 取代 一 共 需 要 输出 f; 次 的 
(t，1)。 这 种 方法 不 足 之 处 在 于 需要 额外 实现 这 部 分 程序 。 

另 一 种 方法 是 使 用 hash 表 ， 转 发 数据 给 reduce 工作 机 群 前 ， 可 以 为 每 一 个 map 碎片 执 
行 一 个 本 地 的 shuffle/reduce 阶段 。 这 种 方法 相当 于 在 本 地 hash 表 里 统 计 本 地 计数 ， 但 由 
于 不 需要 修改 任何 程序 而 得 到 开发 者 的 喜爱 。 一 个 使 用 在 map 碎片 上 而 不 是 reduce 碎片 上 
的 reduce 函数 被 称 为 一 个 合并 器 〈combiner) 。 每 个 reduce 函数 只 要 保证 它 的 输入 值 和 输出 
值 是 同一 类 型 ， 即 可 用 在 它 自己 的 输出 上 ， 就 可 作为 一 个 合并 器 。 在 统计 词 项 的 MapRe- 
duce 例子 中 ， 刚 好 满足 上 述 的 要 求 ， 所 有 输入 和 输出 的 值 在 reduce 阶段 都 是 整数 类 型 。 


14.2.3 ”辅助 关键 字 


迄今 为 止 描述 的 MapReduce 基本 框架 ， 都 不 能 保证 传人 到 reduce 函数 的 同一 个 关键 字 
的 值 保 持 一 个 相对 的 序 。 通 常 这 并 不 要 紧 ， 因 为 reduce 函数 可 以 通过 它 希 望 的 任何 方式 来 
检查 和 重 排 特征 值 。 但 是 ， 对 于 特定 的 任务 ， 一 个 给 定 的 关键 字 的 特征 值 的 数量 可 能 非常 
大 ， 以 至 于 它们 不 能 被 同时 载 人 到 内 存 中 ， 这 样 在 reduce 函数 中 实现 重 排序 就 很 困难 了 。 
在 这 种 情况 下 ， 在 把 关键 字 传 给 reduce 函数 前 ，MapReduce 框架 对 每 个 关键 字 的 特征 值 按 
某 种 方式 排 好 序 会 比较 好 。 

这 种 任务 的 一 个 例子 是 索引 构造 ， 特 征 值 在 传人 reduce 函数 前 必须 按 某 种 预定 义 的 序 
排 好 。 为 了 为 给 定 文 本 集合 创建 文档 编号 索引 ， 我 们 可 以 定义 这 样 的 map 函数 ， 对 每 个 出 
现在 文档 d 中 的 词 项 +， 输 出 一 个 〈 键 / 值 》 对 (ft docid(d)), reduce 函数 则 通过 合并 t 的 
所 有 位 置信 息 来 构造 它 的 位 置信 息 列 表 〈 如 果 可 以 ， 则 对 它们 压缩 ) 。 显 然 ， 能 这 样 处 理 的 
前 提 是 reduce 的 输入 按 docid (d) 升序 排列 。 

MapReduce 支持 辅助 关键 字 (secondary key) 的 概念 ， 即 用 于 定义 传人 reduce 函数 的 
同一 个 关键 字 的 特征 值 的 次 序 。 在 shuffle 阶段 ，〈 键 / 值 》 对 一 般 按 它们 的 关键 字 排 序 。 然 
而 ， 当 给 定 关键 字 对 应 的 特征 值 不 止 一 个 的 时 候 ， 同 一 个 关键 字 的 特征 值 就 可 以 根据 它们 的 
辅助 关键 字 排 序 。 在 MapReduce 的 索引 构造 过 程 中 ，〈 键 / 值 》 对 的 辅助 关键 字 就 是 特征 值 
( 即 包含 给 定 词 项 的 文档 编号 ) 。 


14.2.4 机 器 失效 
当 在 成 百 上 千 台 计算 机 上 运行 MapReduce 程序 时 ， 一 些 机 器 可 能 会 偶尔 出 现 问题 而 不 
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得 不 关闭 。MapReduce 框架 假设 map 函数 的 行为 是 严格 确定 的 ， 并 且 map KARA map 
碎片 的 输出 只 取决 于 该 碎片 (中 同一 个 map 工作 机 处 理 的 两 个 碎片 上 不 存在 信息 交换 ) 。 如 
果 这 个 假设 成 立 ， 一 个 map 工作 机 失效 了 ， 那 就 把 它 的 碎片 分 配给 另 一 个 机 器 重新 处 理 。 

处 理 reduce 工作 机 失效 就 有 一 点 复杂 了 。 因 为 每 个 reduce 碎片 上 的 数据 依赖 于 每 个 
map 碎片 上 的 数据 ， 如 果 把 reduce 碎片 分 配给 另 一 个 工作 机 ， 就 需要 重新 处 理 所 有 的 map PE 
片 。 为 了 避免 这 个 问题 ，map 阶段 的 输出 一 般 不 直接 传 给 reduce 工作 机 群 ， 而 是 临时 存放 在 一 
个 可 靠 的 存储 层 上 ,例如 专用 的 存储 服务 器 或 是 Google 文件 系统 (Ghemawat 等 人 ，2003)。 
如 果 一 个 reduce 工作 机 失效 了 ， 新 的 reduce 工作 机 就 从 这 个 存储 层 上 重新 读 人 数据 。 但是， 就 
算 map 的 输出 以 可 靠 方式 存储 ， 当 一 个 reduce 工作 机 失效 时 ， 还 是 需要 为 失效 碎片 重新 执行 
shuffle 阶段 。 如 果 我 们 也 想 避 免 这 个 问题 ， 那 么 reduce 工作 机 就 要 在 进入 reduce 阶段 前 将 
shuffle 阶段 的 输出 传送 到 存储 服务 器 上 。 因 此 ， 对 于 给 定 碎 片 ，shuffle 阶段 和 reduce 阶段 在 同 
一 机 器 上 运行 ， 除 非 机 器 机 器 故障 频繁 发 生 ， 否 则 额外 的 网 络 传输 开销 可 以 忽略 。 


14.3 ”延伸 阅读 


相 比 该 书 中 的 其 他 课题 ， 并 行 信息 检索 的 著作 还 是 比较 少 的 。 已 有 的 出 版 刊物 大 都 局 限 
于 由 数 十 乃至 更 少 机 器 组 成 的 中 小 型 计算 集群 ， 只 有 一 些 主要 的 搜索 引擎 公司 才 会 不 定期 地 
出 版 这 方面 的 刊物 。 所 以 ， 在 某 些 情形 下 ， 我 们 很 难 来 对 一 个 新 架构 的 可 扩展 性 进行 合理 的 
评估 。 例 如 ， 尽 管 在 14. 1. 2 节 介绍 的 基本 形式 的 词 项 划分 在 8 节点 的 集群 上 可 以 很 好 的 工 
作 ， 但 是 它 肯 定 无 法 扩展 到 拥有 成 百 上 千 个 节点 的 集群 。 尽 管 如 此 ， 一 些 从 小 规模 实验 中 获 
得 的 结果 可 能 会 适用 于 大 规模 并 行 搜索 引擎 。 

Moffat ÆA (2006) 对 词 项 划分 查询 造成 的 负载 均衡 问题 进行 研究 后 ， 得 到 结论 : 如 
果 在 适当 的 地 方 使 用 负载 均衡 策略 ， 词 项 划分 的 查询 性 能 可 以 与 文档 划分 一 样 好 。Marin 和 
Gil-Costa (2007) 也 进行 了 相似 的 研究 ， 并 指出 : 词 项 划分 索引 的 性 能 有 时 能 优 于 文档 划 
分 。Abusukhon 等 人 2008) 比较 了 词 项 划分 的 变种 〈 带 长 位 置信 息 列 表 的 词 项 分 布 在 多 
个 索引 节点 中 ) 。 

Puppin 等 人 〈2006) 讨论 了 在 不 随机 分 配 文 档 而 是 基于 查询 的 排名 把 文档 分 配给 节点 
的 文档 划分 方案 (通过 已 知 的 查询 日 志 )。 对 同一 查询 集中 排名 高 的 文档 通常 会 被 分 配 到 同 
一 节点 。 而 每 个 到 来 的 查询 都 通常 转发 给 那些 可 能 返回 好 的 查询 结果 的 索引 节点 。 男 外 ，Xi 
等 人 (2002) MÆ Marin 和 Gil-Gosta (2007) 给 出 了 关于 混合 划分 方案 (联合 词 项 划分 和 
文档 划分 的 实验 结果 。 在 并 行 查询 处 理 上 ， 他 们 得 到 的 结果 与 Marin 和 Navarro (2003) 
的 结果 有 些许 不 同 (基于 后 级 数 组 而 非 倒 排 文件 的 分 布 式 查询 处 理 )。 

Barroso A. (2003) 对 Google 的 分 布 式 查询 处 理 作 出 了 概述 。 其 他 关于 Google 的 大 
规模 数据 处 理 的 介绍 由 下 述 学 者 提出 ，Ghemawat 等 人 (2003), Dean 和 Ghemawat (2004, 
2008) 以 及 Chang 等 人 《2008)。 

HadoopS 是 一 套 开 源 的 并 行 计算 架构 ， 这 个 架构 开发 的 灵感 来 源 于 Google 的 MapRe- 
duce 和 GFS 技术 。 在 其 他 组 件 中 ，Hadoop 还 包含 了 HDFS 〈 一 种 分 布 式 的 文件 系统 ) 和 
MapReduce 的 执行 方案 。Hadoop 计划 是 由 Doug Cutting CLucene 搜索 引擎 的 创建 者 ) 提 
出 的 。Yahoo 是 这 个 计划 中 的 一 个 主要 贡献 者 ， 并 且 Yahoo 也 有 望 成 为 拥有 世界 上 最 大 的 
Hadoop 集群 的 公司 (包含 几 千 台 机 器 )。 l 
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近年 在 处 理 通用 、 非 图 像 相关 计算 时 使 用 的 图 形 处 理 器 〈graphics processing units, 
GPUs) 已 经 引起 了 一 些 关 注 。 由 于 它们 高 度 并 行 的 性 质 ， 在 长 序列 数据 需要 被 顺序 或 倒序 
处 理 的 情况 下 ， 如 排序 (Govindaraju 等 人 ，2006; Sintorn 和 Assarsson, 2008) 与 析 取 
( 即 布尔 OR) 查询 处 理 (Ding 等 人 ，2009) ，GPUs 的 性 能 远 远 优 于 普通 的 CPU。 


14.4 练习 


练习 14. 1 当 复制 一 个 分 布 式 的 搜索 引擎 时 ， 复 制 可 以 在 节点 级 别 〈 即 一 个 具有 2% 个 索引 节点 的 集 
群 ， 两 个 节点 将 共享 给 定 索 引 碎 片 的 查询 负载 ) 或 集群 级 别 〈 即 两 个 相同 集群 ， 但 彼此 间 没 有 共同 的 副 
本 ) 。 讨 论 它们 各 自 的 优 缺 点 。 

练习 14. 2 ”描述 文档 -划分 索引 可 能 出 现 的 扩展 性 问题 〈 就 算 索 引 存 储 在 内 存 中 ) 。( 提 示 : 查询 处 理 操 
作 的 复杂 度 与 索引 大 小 是 次 线性 关系 。) 

练习 14.3 给 定 一 个 节点 个 数 % 二 200 的 文档 -划分 索引 ， 目 标 结果 集 大 小 m=50, ATLA 99% 的 概率 
得 到 正确 的 前 m 个 结果 ， 每 个 节点 返回 的 结果 集 大 小 k 最 小 是 多 少 ? 

练习 14. 4 一 般 化 14. 1. 4 节 中 的 休眠 复制 策略 ， 使 之 可 以 处 理 有 个 机 器 同时 失效 的 情况 。 这 时 的 总 体 
存储 需求 是 多 少 ? 

练习 14.5 ”请 描述 面向 词 项 划分 索引 和 面向 文档 划分 索引 的 休眠 复制 的 不 同 。 

练习 14. 6 (a) 为 给 定 的 文本 语料库 设计 一 个 计算 平均 文档 长 度 〈 每 个 文档 的 词 条 数 ) 的 MapReduce 
程序 〈 即 一 个 map 函数 与 一 个 reduce HBO. (b) 修改 你 的 reduce 了 蚂 数 使 它 可 以 作为 一 个 合并 器 。 

练习 14. 7 设计 一 个 MapRduce F, 计算 一 个 包含 词 项 ts 的 文档 也 包含 词 项 t, 的 条 件 概率 Pr [t 
| tj]。 你 会 发 现 使 用 了 辅助 关键 字 的 map 函数 很 有 用 ， 它 会 使 同一 个 关键 字 的 所 有 特征 值 都 按 某 种 顺序 进 
行 排序 。 

练习 14.8 (项 目 练习 ) 采用 练习 5. 9 中 实现 的 BM25 评分 函数 ， 来 构造 一 个 文档 -划分 搜索 引擎 。 分 
HA 100%. 50%, 25% Al 12.5% MRA GOV2 文档 集 构建 索引 。 对 每 种 索引 规模 ， 计 算 每 个 查询 的 平均 
时 间 〈 用 一 些 标 准 的 查询 集 ) 。 你 观察 到 什么 ? 这 是 否 影响 文档 划分 的 可 扩展 性 ? 
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| 第 15 章 


Information Retrieval: Implementing and Evaluating Search Engines 


Web 搜索 


前 述 章节 气 弃 特殊 的 例子 和 实验 ， 从 一 般 化 的 角度 介绍 了 信息 检索 。 假 设 信息 检索 系统 
包含 一 个 文档 集 ， 其 中 每 个 文档 都 由 一 系列 的 词 条 组 成 。 标 记 可 以 是 标题 、 作 者 和 其 他 结构 
化 元 素 。 我 们 假设 这 些 仅 仅 与 信息 检索 系统 的 运行 环境 或 其 包含 的 文档 有 关 。 

本 章 中 我 们 将 考虑 Web 检索 这 一 特定 语 境 ， 这 也 许 对 你 来 说 非常 熟悉 。 假 设 这 个 特定 
语 境 能 给 我 们 提供 一 般 语 境 所 不 能 提供 的 文档 特征 。 最 重要 的 特征 之 一 就 是 超 链接 提供 的 结 
构 信 息 。 这 些 页 面 之 间 的 链接 通常 是 图 片 或 锚 文 本 ， 它 们 提供 给 我 们 大 量 有 价值 的 信息 ， 包 
括 每 个 页 面 的 信息 和 它们 之 间 的 关系 。 

伴随 这 些 特性 而 来 的 也 有 一 些 问 题 ， 主 要 与 网 页 或 网 站 的 “质量 ”、“ 权 威 性 ”和 “ 受 欢 
迎 程度 ”密切 相关 ， 涉 及 范围 从 仔细 编辑 的 国际 新 闻 网 站 的 网 页 到 高 中 生 的 个 人 主页 。 另 
外 ， 很 多 网 页 实际 上 是 垃圾 (spam) 网 页 一 一 通过 伪装 以 达到 商业 诈骗 或 其 他 目的 的 恶意 
网 页 。 尽管 大 部 分 网 站 的 主人 都 希望 在 主要 的 商用 搜索 引擎 中 有 比较 靠 前 的 排名 ， 而 且 会 不 
惜 一 切 代价 来 提高 它们 的 排名 ， 但 是 垃圾 网 页 的 创建 者 与 商用 搜索 引 敬 的 运营 商 的 关系 是 对 
立 的 。 这 些 网 页 的 创建 者 会 积极 尝试 修改 用 于 排名 的 特征 ， 修 改 的 方法 主要 是 通过 在 网 页 的 
内 容 和 质量 上 制造 一 些 假象 。 

其 他 问题 则 是 因为 Web 的 规模 一 一 数 十 亿 的 网 页 分 散在 数 百 万 台 主 机 上 。 为 了 对 这 些 
网 页 进行 索引 ， 诡 虫 (crawler) 将 它们 从 Web 上 抓 取 下 来 并 放 在 本 地 由 搜索 引擎 处 理 。 由 
于 多 数 网 页 每 天 或 每 小 时 都 在 变 ， 因 此 Web 的 快照 需要 定时 刷新 。 息 忠 在 抓 取 网 页 的 时 候 
同时 也 会 检测 重复 或 近似 重复 的 页 面 ， 然 后 进行 适当 的 处 理 。 例 如 ， 在 很 多 网 站 中 都 能 找到 
用 Java 编程 语言 写 的 标准 文件 ， 但 是 响应 例如 “ave”, “vector”, “class”) 这 样 的 查询 
时 ， 搜 索引 擎 最 好 是 只 返回 java 官方 网 站 java. sun. com, 

另外 需要 考虑 的 问题 是 商业 Web 搜索 引擎 收 到 的 查询 的 数量 和 种 类 ， 这 直接 反映 了 
Web 上 信息 的 数量 和 种 类 。 由 于 查询 通常 比较 简短 一 一 一 两 个 词 的 长 度 这 样 搜 索引 擎 
就 对 用 户 输 入 的 查询 或 用 户 要 找 的 内 容 知 之 其 少 。 当 用 户 输入 查询 “UPS”〉 时 ， 他 有 可 能 
是 要 查 快 递 包 谚 ， 也 有 可 能 是 想 买通 用 电源 ， 或 是 参加 普 吉 特 湾 大 学 (University of Puget 
Sound) 的 夜班 学 习 。 尽 管 这 样 的 查询 二 义 性 对 于 所 有 的 信息 检索 应 用 来 说 都 是 需要 考虑 的 
问题 ， 但 是 这 种 现象 在 Web 信息 检索 应 用 中 尤为 突出 。 





15.1 Web 的 结构 

图 15-1 给 出 一 个 例子 说 明了 Web 结构 最 重要 的 特征 。 它 展示 了 三 个 网 站 上 的 网 页 : 分 
IAW, MA HOHA W 提供 了 一 部 普通 的 百科 全 书 ， 包 括 有 关 落 士 比 亚 〈w0.html) 以 
及 他 的 两 部 剧 作 :《Hamlet》(wl.htmD 和 《Macbeth》(w2.htmlb 。 站 点 H 提供 历史 信息 ， 
包括 莎士比亚 的 妻子 (ho.html) 和 他 的 儿子 (hl.html)。 站 点 M 提供 影视 信息 ， 包 括 1971 
年 由 Roman Polanski 导演 的 电影 版 《Macbeth》 的 网 页 (m0.html)。 





CO 为 简单 起 见 ， 我 们 用 单个 字母 的 网 站 名 和 简化 的 页 面 各 来 代替 它们 全 称 。 如 用 http: //W/w0. html 代替 完整 的 
URL: http: //en, wikipedia. org/wiki/ William _ Shakespeare, 
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图 中 解释 了 这 些 站 点 和 页 面 之 间 的 链接 结构 。 如 网 页 w0.html 的 HTML $i (anchor) 
(a href=" http: //H/h0.html") Anne Hathaway </a) 
在 页 面 ho.html 和 站 点 H 之 间 建 立 起 链接 。 与 这 个 链接 (“Anne Hathaway”) 相关 的 锚 文 
本 则 指示 了 目标 页 面 的 内 容 。 


站 点 W: 

















<title>William Shakespeare...</title> 


ie ci 


<b>William Shakespeare</b> lactate el 
| | (baptised 26 April 1564 - died 23 April =" ” 
11616) was an English... <a href="w0.htmi"”>Shakespeare</a> 


re <a href="wl.html”>Hamlet</a>... 


| <a href="w2.html">Macbeth</a>... 
a Sa <title>Macbeth...</title> 


_| <a href="http://H/h0.html" > 
Anne Hathaway</a>... 








<a href= 





“w0.html”>Shakespeare</a>... 

















<a href="http://M/m0.htm!” >movie...</a> | 





LLA fh 
“||... <a href ttp://W/w0.htmi> 
| | Shakespeare's</a> wife ... 


(2972)... < 








chase 


.. <a href="hO.html"> 





mother</a> ... 








图 15-1 Web 结构 。 网 页 可 相互 链接 ((a href 二 …))， 并 且 可 通过 锚 文 本 例如? 
“mother”) 与 各 个 链接 关联 起 来 


15.1.1 Web 
这 些 用 超 链接 表示 的 网 页 与 站 点 之 间 的 联系 构成 了 所 谓 的 Web H (Web graph) 。 如 果 


将 Web 图 看 成 一 个 纯粹 的 数学 对 象 ， 每 个 网 
页 就 是 图 中 的 节点 ， 每 个 超 链接 就 是 链接 这 些 (< 一 一人 (< 一 人 
节点 的 有 向 边 。 图 15-2 所 示 的 Web 图 对 应 于 f N 
图 15-1。 简 单 起 见 ， 我 们 简化 网 页 的 标记 ， 如 
将 http: //W/w0.html 简写 为 wo. G) (+n) 
SERRA BEAR, TELE NY SP earth Web Rl, SA 
要 : 当 提 到 Web 图 的 时 候 ， 并 不 单单 是 指数 图 152 对 应 图 15- cb 图 。 每 1 
学 方面 的 抽象 概念 一 网 页 在 站 点 上 聚集 ， 锚 接 对 应 图 中 的 一 条 有 向 边 
文本 和 图 片 也 有 可 能 与 每 个 链接 相关 。 链 接 可 能 指向 页 面 内 部 某 个 标记 的 位 置 ， 也 有 可 能 指 
向 整个 页 面 。 同 样 应 该 注意 到 Web 具有 高 动态 和 流动 的 性 质 。 全 世界 的 网 站 都 在 不 断 地 添 
加 或 删除 页 面 和 链接 ， 因 此 只 能 捕捉 整个 Web 图 的 一 个 粗略 的 近似 。 
有 时 我 们 仅 对 Web 中 的 部 分 内 容 感 兴趣 ， 也 许 只 是 某 一 个 网 站 或 组 织 中 的 所 有 页 面 。 
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在 这 种 情况 下 ， 捕 捉 这 个 站 点 或 组 织 的 Web 图 的 精确 快照 比 捕捉 整个 Web 的 精确 快照 要 容 
易 得 多 。 但 是 ， 大 多 数 网 站 都 会 持续 地 增长 和 变化 ， 因 此 得 定期 重新 捕捉 抓 取 快照 以 维持 快 
照 的 精确 。 

为 后 面 章节 用 到 的 Web 图 给 出 一 个 正式 的 定义 。 设 更 为 Web 图 中 所 有 网 页 的 集合 ， 

一 | 更 | 为 网 页 数量 ， 五 表示 图 中 链接 〈 或 边 ) 的 数量 。 给 定 一 个 页 面 ceo, XM out(a) 
为 从 a 页面 指向 其 他 页 面 的 出 链接 (out-link〉 的 数量 (也 称 出 度 (out-degree))。 同 样 地 ， 
定义 in) 为 从 其 他 网 页 指向 页 面 xc 的 入 链接 (in-link) 的 数量 (也 称 入 度 (in-degree))。 
在 图 15-2 所 示 的 Web 图 中 ，out (wo) 二 3，in(ho) 二 2。 如 果 inla) =0, Wa 称 为 源 
(source); 如 果 out(a)=0, Wa 称 为 汇 点 (sink), EXT AIRE. ÆRE 15-2 所 示 的 Web 
A, KE m AIA, Wah. 为 源 。 

每 个 单独 网 页 本 身 就 有 可 能 是 高 度 复杂 和 结构 化 的 对 象 。 它 们 通常 包含 菜单 、 图 片 和 广 
告 。 脚 本 用 于 第 一 次 加 载 页 面 时 生成 网 页 内 容 ， 以 及 与 用 户 交 互 时 更 新 网 页 内 容 。 一 个 网 页 
也 可 能 作为 框架 保存 其 他 页 面 ， 或 只 是 将 浏览 器 重 定向 到 男 一 个 页 面 。 这 些 重 定 向 可 以 通过 
脚本 或 特殊 的 HTTP 响应 来 实现 ， 并 且 可 能 会 被 多 次 重复 调用 ， 因 此 大 大 增加 了 其 复杂 性 。 
除了 HTML Wm, Web PAA PDF. Word 文档 以 及 其 他 格式 的 文档 。 


15.1.2 静态 与 动态 网 页 


现在 常常 会 听 到 页 面 有 “静态 ”的 和 “动态 ”的 。 静 态 网 页 的 HTML 都 是 在 用 户 请 求 
之 前 已 经 生成 好 并 存储 在 磁盘 上 ， 需 要 时 就 被 传送 给 浏览 器 或 Web 爬虫 。 一 个 组 织 的 主页 
就 是 一 个 典型 的 静态 网 页 。 动 态 网 页 是 在 请 求 出 现 后 才 生 成 的 ， 页 面 内 容 部 分 是 由 请 求 的 具 
体内 容 来 决定 的 。 一 个 搜索 引擎 的 结果 页 面 (search engine result page, SERP) 就 是 一 个 
典型 的 动态 网 页 ， 由 用 户 的 查询 决定 页 面 的 内 容 。 

通常 会 认为 静态 页 面 比 动态 页 面 更 容易 抓 取 和 索引 ， 确 实 也 有 很 多 类 型 的 动态 页 面 不 适 
合 抓 取 和 索引 。 例 如 ， 在 线 日 历 系统 可 供 人 和 事件 管理 约会 和 时 间 表 ， 根 据 日 期 给 出 动态 生 
成 的 网 页 (对 于 过 去 和 未 来 )。 如 果 按 照 链接 一 路 访问 下 去 ， 可 以 访问 任何 一 个 日 期 的 页 面 。 
虽然 一 个 在 线 日 历 可 以 很 灵活 地 制定 从 今 往 后 25 年 的 预约 ， 但 对 于 一 个 Web 搜索 引擎 来 说 
索引 无 穷 多 的 空白 月 份 也 是 不 合适 的 。 

虽然 很 多 动态 网 页 不 应 进行 抓 取 和 索引 ， 但 是 还 是 有 很 多 这 样 的 网 页 是 应 该 这 样 做 的 。 
例如 零售 网 站 的 目录 页 ， 这 通常 是 访问 关系 数据 库 当前 商品 和 价格 时 动态 产生 的 。 随 后 生成 
的 结果 转化 成 HTML 格式 ， 并 通过 菜单 和 其 他 固定 信息 对 其 进行 包装 ， 最 后 呈现 在 浏览 器 
中 。 为 满足 用 户 搜索 产品 的 需求 ， 搜 索引 敬 必 须 对 这 些 网 页 进行 抓 取 并 索引 。 . 

动态 网 页 有 时 可 以 根据 其 URL 的 特征 对 其 进行 识别 。 例 如 ， 通 过 通用 网 关 接口 (CGT 
访问 的 服务 器 可 能 包含 URL 的 路 径 元 素 cgi-bin。 由 微软 的 动态 服务 器 页 面 (ASP 技术 产 
生 的 动态 网 页 的 URL 中 带 有 扩展 名 .asp 或 .aspx。 遗 憾 的 是 ， 这 些 URL 的 特征 并 不 总 是 显 
示 出 来 的 。 理 论 上 讲 ， 所 有 网 页 都 可 能 是 静态 的 或 是 动态 的 ， 并 且 没 有 确定 的 方式 来 对 其 进 
行 分 辨 。 对 于 网 页 抓 取 和 索引 而 言 ， 重 要 的 是 网 页 的 内 容 ， 而 不 是 它们 是 静态 还 是 动态 的 。 





15.1.3 ÈN 


很 多 网 页 是 所 谓 的 “ 暗 网 *、“ 潜 网 ”或 “ 深 网 ”的 一 部 分 。 暗 网 (Hidden Web) 包含 
很 多 没有 链接 指向 的 网 页 ， 受 密码 保护 的 网 页 以 及 只 有 查询 数字 图 书馆 或 数据 库 时 才 看 得 到 
的 网 页 。 虽 然 这 些 网 页 包含 有 价值 的 内 容 ， 但 是 它们 很 难 或 不 可 能 被 Web ERRE, 
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内 网 〈intranet) 中 的 网 页 是 一 种 特殊 的 暗 网 。 内 网 中 的 网 页 只 有 该 公司 内 部 或 相似 实 
体内 部 才 可 以 访问 。 用 于 索引 内 网 的 企业 搜索 引擎 使 用 很 多 与 普通 Web 搜索 引擎 一 样 的 技 
术 ， 但 根据 内 部 网 的 一 些 独 有 特征 进行 调整 。 


15.1.4 Web 的 规模 


即使 排除 所 有 暗 网 ， 也 很 难 对 Web 的 规模 进行 准确 估计 。 添 加 或 移 除 一 个 主机 都 在 不 
同 程度 上 改变 了 可 访问 页 面 的 数量 ， 改 变 的 大 小 取决 于 主机 内 容 的 多 少 。 有 的 主机 包含 数 以 
百 万 的 有 价值 网 页 ! 而 有 的 主机 包含 数 以 百 万 没 用 或 用 处 不 大 的 内 容 的 网 页 ( 见 练习 
15.14), 

然而 ， 很 多 网 页 很 少 出 现在 搜索 结果 的 前 面 。 排 除 那 些 来 自 于 搜索 引擎 但 没什么 用 的 网 
页 。 我 们 可 以 非 正 式 地 将 那些 值得 被 通用 Web 搜索 引擎 包括 的 网 页 称 为 可 索引 Web CGn- 
dexable Web) (Gulli 和 Signorini，2005) 。 这 个 可 索引 Web 将 会 包含 全 部 可 对 搜索 结果 产 
生 实 质 性 影响 的 网 页 。 

如 果 假 定 包 含 在 主流 搜索 引擎 索引 中 的 网 页 构成 了 可 索引 Web 的 一 部 分 ， 那 么 可 索引 
Web 规模 的 下 限 就 可 由 主流 搜索 引 苟 的 联合 覆盖 率 来 决定 。 具 体 地 说 ， 如 果 集 合 A, Az en 
表示 每 个 主流 搜索 引擎 索引 的 网 页 集 ， 可 索引 Web 规模 的 下 限 就 是 这 些 集合 的 并 集 |UA; |. 

遗憾 的 是 ， 也 很 难 精确 计算 这 个 集合 。 我 们 虽然 可 以 检测 给 定 的 URL 是 否 出 现在 索引 
中 ， 但 主流 搜索 引擎 并 不 公布 它们 索引 网 页 的 列表 ， 甚 至 不 提供 包含 网 页 的 数量 。 即 使 我 们 
知道 了 每 个 搜索 引擎 包含 的 网 页 数量 ， 这 个 并 集 的 规模 也 小 于 所 有 网 页 的 数量 和 ， 因 为 很 多 
网 页 是 重复 的 。 

Bharat 和 Broder (1998) 以 及 Lawrence 和 Giles (1998) 提出 了 一 种 估计 主流 搜索 引 
擎 联合 覆盖 率 的 方法 。 首 先 ， 产 生 一 个 URL 的 测试 集 。 这 个 步 又 可 以 通过 对 主流 搜索 引擎 
进行 一 系列 的 随机 查询 ， 然 后 从 每 一 个 返回 结果 集中 随机 选取 一 些 URL 来 完成 。 我 们 假设 
这 个 测试 集 代 表 了 搜索 引擎 索引 页 面 的 一 个 均匀 抽样 。 其 次 ， 测 试 集 中 的 每 个 URL 再 次 经 
过 每 个 搜索 引擎 的 验证 ， 然 后 记录 包含 它 的 搜索 引擎 。 

给 定 两 个 搜索 引擎 A 和 也， 图 15-3 解释 了 它们 的 集合 之 间 的 关系 。 对 我 们 的 URL 测试 
集 进行 采样 ， 可 以 估计 PrLAB1A]J， 即 如 果 某 个 URL 在 4 中 ， 那 么 它 同时 也 在 交集 中 的 
概率 : 

PlanB a J-ENER ARDEA RLE (15-1) 
我 们 可 用 同样 的 方式 估计 Pr [ANB | B]。 如 果 我 们 知道 A 的 大 小 ， 则 可 以 估计 交集 的 大 
小 为 





|AN B|=|Al-Pr[An B| A] (15-2) 
以 及 B 的 大 小 为 
_ MNB] 


因此 ， 可 以 估计 并 集 的 大 小 为 

|AU B/=[Al + [B| —|An BI (15-4) 
如 果 4 与 妃 的 大 小 已 知 ， 交 集 的 大 小 就 可 以 根据 这 两 个 集合 的 大 小 估计 得 到 ， 并 且 由 这 些 
估计 值 的 平均 值 可 估计 并 集 的 大 小 : 
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|AU B| = |A| + |B| — > (|A|: Pr[AN B| A] + |B|: Pr[An B)B)) (15-5) 


这 种 方法 可 扩展 到 多 引擎 的 情况 。 采 用 这 种 方法 的 
变形 ，Bharat 和 Broder (1998) 估计 了 1997 年 中 
期 可 索引 Web 的 规模 大 概 是 1. 6 亿 个 网 页 。 在 大 约 
同时 期 的 研究 中 ，Lawrence 和 Giles (1998) 估计 
可 索引 Web 规模 大 约 是 3. 2 亿 个 网 页 。 大 约 一 年 以 
后 ， 可 索引 Web 规模 就 已 经 扩大 到 了 8 亿 个 网 页 
(Lawrence 和 Giles，1999) 。 到 2005 年 中 期 ， 可 索 15-3 搜索 引擎 A、B 间 的 重 得 交集 可 
引 Web 规模 达到 了 115 亿 个 网 页 (Gulli 和 Signori- 用 于 估计 可 索引 Web 的 规模 
ni, 2005), 


15.2 ”查询 与 用 户 


Web 查询 通常 非常 短 。Spink 和 Jansen (2004) 对 主流 搜索 引擎 中 查询 日 志 的 研究 进行 
了 总 结 。 尽 管 各 个 研究 得 到 的 确切 数据 各 不 相同 ， 但 是 它们 一 致 显示 出 多 数 查询 的 长 度 通常 
只 有 1 或 2 个 词 项 ， 平 均 长 度 则 在 2 一 3 个 词 项 之 间 。 这 些 查询 的 主题 覆盖 了 人 们 的 各 种 兴 
趣 ， 如 性 、 健 康 、 商 业 以 及 某 些 主题 娱乐 。 

或 许 Web 查询 如 此 简短 并 不 奇怪 。 直 到 最 近 ，Web 搜索 引擎 的 查询 处 理 策略 仍然 不 鼓 
励 长 查询 。 正 如 2. 3 节 中 所 述 ， 这 些 处 理 策略 通过 对 排名 前 的 查询 词 项 进行 布尔 合 取 来 过 滤 
结果 。 对 于 搜索 结果 中 包含 的 某 个 网 页 ， 所 有 的 查询 词 项 必须 以 某 种 方式 与 之 相关 联 ， 或 是 
出 现在 页 面 内 容 中 ， 或 出 现在 指向 该 页 面 的 锚 文本 中 。 因 此 ， 通 过 添加 相关 词 项 来 增加 查询 
长 度 可 能 会 导致 一 旦 用 户 漏 掉 几 个 相关 词 ， 在 过 滤 时 就 会 滤 掉 一 些 相关 网 页 。 这 种 严格 的 过 
滤 机 制 在 近年 来 已 经 放宽 很 多 了 。 iot 
例如 ， 可 以 接受 用 同义词 代替 精确 








匹配 了 ATLA FAIA “howto” & g 

代 “FAQ”。 尽 管 如 此 ， 在 查询 处 理 

过 程 中 过 滤 效 率 仍 是 一 个 问题 , 而 Ry 
” 且 Web 搜索 引擎 对 长 查询 的 处 理 效 E ， 


果 不 好 。 
Web 查询 的 分 布 遵 循 齐 夫 定律 10 

(Zipf’s Law) 〈 见 图 15-4)。 在 一 个 1 

具有 代表 性 的 查询 日 志 〈 包 含 1000 10 10 10 io do% iof 107 

万 条 查询 记录 ) 中， 单个 的 最 频繁 broni 

查询 占 了 总 数 的 1% 以 上 ， 而 接近 一 图 15-4 根据 排名 排序 后 的 查询 频率 ， 数 据 来 自 一 个 商用 搜 


半 的 查询 都 只 出 现 过 一 次 。 在 对 搜 索引 擎 的 日 志 中 的 1000 万 条 查询 记录 。 图 中 虚线 
索引 擎 的 调试 与 评价 中 ， 都 需要 考 人 

虑 齐 夫 定律 的 “长 尾 效应 ”。 总 而 言 之 ， 不 频繁 查询 和 频繁 查询 都 很 重要 。 

15.2.1 用 户 意图 


一 些 研究 人 员 研 究 Web 搜索 引擎 中 出 现 的 查询 集合 ， 力 图 从 这 些 查询 中 挖 所 出 隐藏 其 
中 的 用 户 意图 ， 并 提取 其 特征 。Broder (2002) 对 使 用 Altavista 搜索 引擎 的 用 户 及 查询 日 
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志 进 行 了 研究 ， 从 而 得 出 一 种 Web 搜索 引擎 分 类 方法 。 他 将 Web 查询 分 为 三 类 ,反映 了 用 
户 的 明显 意图 ， 如 下 ， 

。 进行 导航 (navigational) 查询 的 意图 是 定位 Web 上 的 特定 网 页 或 站 点 。 例 如 ， 如 果 
一 个 用 户 想 找到 CNN 新 闻 网 的 主页 ， 他 将 会 输入 查询 〈《“CNN”>。 导 航 查询 通常 只 
有 一 个 正确 的 结果 。 然 而 ， 这 个 正确 的 结果 对 不 同 用 户 而 言 会 有 所 不 同 。 一 个 美国 
的 讲 西班牙 语 的 用 户 搜索 CNN 时 可 能 希望 找到 用 西班牙 语 显示 的 主页 (www. 
cnn.com/espanol); 突尼斯 (Tunisia) 的 用 户 可 能 想 要 阿拉 伯 版 本 的 网 页 Carabic. 
enn. com) o 
进行 信息 (informational) 查询 的 用 户 往往 想 要 获知 某 个 特定 主题 的 相关 知识 ， 在 假 
定 知识 来 源 可 靠 的 前 提 下 ， 用 户 对 信息 的 来 源 并 不 感 兴趣 。 这 些 主 题 构 成 了 第 1 章 
中 提 到 的 测试 集 ， 并 且 在 本 书 中 前 四 个 部 分 用 来 进行 信息 查询 意图 的 评价 。 当 用 户 
输入 查询 (“president”，“obama”》 时 ， 她 得 到 的 结果 可 能 来 自 于 CNN 新 闻 网 、 维 
基 百 科 或 其 他 网 站 。 也 许 在 找到 所 有 她 需要 的 信息 前 ， 她 会 浏览 并 阅读 所 有 来 自 这 
些 网 站 的 信息 。 像 这 样 的 信息 查询 ， 其 背后 的 需求 也 是 因 人 而 蜡 的 ， 范 围 可 能 更 宽 
或 更 窗 些 。 用 户 可 能 是 要 找 政 府 政策 的 详细 描述 、 个 人 简介 ， 也 可 能 只 是 奥巴马 的 
生日 。 
进行 交易 (transactional) 查询 的 用 户 在 找到 想 要 的 结果 以 后 可 能 会 与 网 站 进行 交 
互 。 这 种 交互 动作 可 能 涉及 很 多 活动 ， 如 在 线 游戏 、 采 购物 品 、 旅 游 预 订 ， 或 下 载 
图 片 、 音 乐 、 视 频 等 。 这 类 查询 还 包含 那些 搜索 服务 的 查询 ， 如 地 图 、 天 气 等 ， 而 
不 是 要 找 提供 这 些 服务 的 特定 网 站 。 

Rose 和 Levinson (2004) 对 Broder 的 工作 进行 了 扩展 ， 将 三 个 分 类 细 化 成 用 户 目标 的 
不 同 层 级 。 他 们 在 层级 的 顶端 保留 了 Broder 的 三 个 分 类 ， 但 是 将 “交易 查询 ”重新 命名 为 
“ 源 查询 ”。 他 们 将 信息 查询 和 交易 查询 分 成 了 很 多 子 类 。 例 如 ， 用 户 进行 直接 信息 (direct- 
ed informational) 查询 的 目标 是 寻找 某 个 特定 问题 〈 如 “奥巴马 的 生日 是 什么 时 候 ?”) WE 
案 ， 反 之 ， 进 行 非 直接 信息 (undirected informational) 查询 的 用 户 的 目的 只 是 想 了 解 某 个 
主题 (如 “ 纵 我 介绍 一 下 奥巴马 总 统 ,”) 的 相关 信息 。 进 一 步 地 ， 直 接 信息 查询 可 分 为 开放 
st (open) 或 封闭 式 Closed 两 种 ， 取 决 于 问题 的 答案 是 开放 式 的 还 是 特定 的 。 

导航 查询 和 信息 查询 的 区 别 可 以 简单 概括 为 ， 用 户 是 否 要 搜索 特定 的 网 站 ? 交易 查询 与 
其 他 两 类 查询 的 区 别 并 不 十 分 明显 。 我 们 可 以 假定 查询 (“mapquest”) 是 导航 查询 ， 用 户 
想 要 找 的 网 站 是 wwrw.mapquest com， 但 同时 也 可 认为 用 户 想 与 该 网 站 进行 交互 ， 以 获得 他 
想 要 的 方位 和 地 图 。 用 户 输入 查询 〈“travel”, “washington”) 时 ， 可 能 要 查找 有 关 在 华盛顿 
旅游 的 信息 ， 同 时 也 想 在 那里 预订 酒店 ， 这 就 使 得 这 一 查询 既是 信息 查询 又 是 交易 查询 。 如 这 
些 例子 一 样 ， 有 些 查询 可 以 看 成 是 多 类 查询 的 结合 ， 如 导航 /交易 查询 、 信 息 /交易 查询 等 。 

根据 Broder (2002) 的 研究 ， 导 航 查 询 占 Web 查询 总 数 的 20% 一 25 多 ， 交 易 查询 至 少 
占 22% ， 剩 余 的 就 是 信息 查询 。 根 据 Rose 和 Levinson (2004) 的 研究 ，12 多 一 15 多 的 查询 
是 导航 查询 ，24 匈 一 27 儿 的 查询 是 交易 查询 。 最 近 Jansen SA (2007) 的 研究 结果 与 这 些 
数据 稍 有 不 同 。 他 们 的 研究 表明 80% 以 上 的 查询 是 信息 查询 ， 剩 下 的 由 导航 查询 和 交易 查 
询 平 分 。 尽 管 如 此 ， 这 些 研 究 都 表明 这 几 类 查询 在 Web 查询 中 占有 很 大 比例 ， 因 此 Web 搜 
索引 擎 必须 准确 识别 用 户 意 图 中 的 不 同 点 。 

“导航 查询 ”和 “信息 查询 ”是 常见 的 术语 。 如 果 查 询 潜在 的 目的 是 一 样 的 或 者 相似 的 ， 
那么 无 论 是 哪个 用 户 提交 的 查询 ， 这 种 术语 的 用 法 都 是 可 以 理解 的 。 但 对 于 某 些 查询 来 说 ， 
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它们 的 类 别 因 用 户 不 同 有 很 大 的 差异 。 因 此 我 们 强调 这 些 查 询 类 别 只 是 基本 描述 了 提交 查询 
的 用 户 的 目的 和 意图 ， 而 不 是 查询 本 身 内 在 的 意义 。 例 如 ， 一 个 用 户 进 行 查询 (“UPS”， 那 
么 他 可 能 想 进行 ， 

。 信息 意图 ， 想 知道 通用 电源 (universal power supply, UPS) 的 供电 原理 。 

。 交易 意图 ， 想 为 其 个 人 计算 机 购买 便宜 的 通用 电源 。 

。 交易 /导航 意图 ， 想 跟踪 快递 包 囊 。 

。 导航 /信息 意图 ， 想 要 了 解 普 吉 特 湾 大 学 (University of Puget Sound) 的 课程 信息 。 

尽管 这 个 查询 是 非典 型 的 ， 可 归 和 人 多 个 查询 类 别 , 但 (由 除 用 户 以 外 的 人 员 〉 将 任意 给 
定 查询 分 人 一 个 类 别 ， 都 不 是 一 个 有 据 推测 。 


15.2.2 点击 曲线 


导航 查询 和 信息 查询 之 间 的 区 别 可 从 用 户 行为 中 明显 看 出 。Lee 等 人 《〈2005) 研究 了 用 
户 点 击 〈clickthrough) ， 并 以 此 为 推断 用 户 查 询 意图 的 一 个 特征 。 点 击 是 指 在 搜索 引擎 结果 
页 面 中 点 了 某 个 搜索 结果 的 行为 。 商 用 搜索 引擎 常常 记录 点 击 来 衡量 自己 的 性 能 〈 见 
15.5.2 节 )。 

尽管 几乎 所 有 的 点 击 都 发 生 在 搜索 结果 的 前 10 位 Joachims 等 人 ，2005; Agichtein 等 
人 ，2006b)， 但 是 点 击 模式 还 是 根据 查询 的 不 同 而 不 同 。 通 过 对 提交 相同 查询 的 大 量 不 同 
用 户 的 点 击 进行 研究 ，Lee 等 人 (2005) 得 出 了 信息 查询 和 导航 查询 的 典型 点 击 分 布 。 对 导 
航 查询 而 言 ， 点 击 分 布 趋向 单个 结果 ;， 对 信息 查询 而 言 ， 点 击 分 布 是 平缓 的 。 

Clarke A (2007) 对 商用 搜索 引擎 的 日 志 进行 了 分 析 ， 并 提供 了 进一步 的 分 析 和 样 
例 。 图 15-5 的 曲线 是 由 他 们 论文 中 的 样 例 得 到 的 。 两 图 分 别 显示 了 对 排名 1 一 10 的 查询 结 
果 点 击 所 占 的 百分比 。 每 个 点 击 表示 不 同 用 户 第 一 次 点 击 的 搜索 结果 。 图 15-5a 所 示 的 是 典 
型 的 导航 查询 的 点 击 分 布 ， 显 示 了 在 网 站 www. craigslist.org 上 的 高 点 击 率 ， 这 个 网 站 是 一 
个 经 典 的 广告 网 站 ， 也 是 设想 的 目标 查询 网 站 。 图 15-5b 所 示 的 是 典型 的 信息 查询 的 点 击 分 
布 。 对 于 这 两 种 查询 ， 点 击 数 随 着 排名 的 增加 而 下 降 ; 信息 查询 中 排名 靠 后 的 结果 点 击 数 相 
对 较 高 。 


a) ("craigslist") b) ("periodic", "table", "of", "elements") 





EE Bb eS G P e SW EB 9 
点 击 结果 的 排名 位 置 点 击 结果 的 排名 位 置 


图 15-5 ”典型 的 导航 查询 (“craigslist”) 和 信息 查询 “periodic”, “table”, “of”, 
“elements”)) 的 点 击 曲线 
15.3 ”静态 排名 


Web 检索 工作 分 两 个 阶段 进行 。 第 一 阶段 发 生 在 索引 过 程 中 ， 对 页 面 进行 静态 排名 
(static rank) (Richardson 等 人 ，2006)。 这 种 排名 可 以 非 正式 地 反映 出 网 页 的 质量 、 权 威 
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性 或 流行 程度 。 从 理论 上 讲 ， 静 态 排 名 对 应 于 网 页 的 相关 性 先 验 概 率 一 一 先 验 概 率 越 大 ， 网 
页 静态 排名 越 高 。 

静态 排名 独立 于 任何 查询 。 在 查询 阶段 ，Web 检索 的 第 二 阶段 在 查询 时 才 发 生 。 在 这 
一 阶段 中 ， 静 态 排名 将 与 独立 于 查询 的 特征 结合 起 来 ， 例 如 词 项 邻近 度 和 词 频 和 等， 这些 特 性 
都 将 用 于 产生 动态 排名 (dynamic rank). 

索引 时 进行 静态 排名 使 得 Web 搜索 引 敬 可 以 考虑 使 用 一 些 在 查询 时 不 能 考虑 的 特征 。 
这 些 特征 中 最 重要 的 是 源 自 于 链接 分 析 Clink analysis) 技术 的 一 些 特征 。 这 些 技术 用 于 从 
Web 图 的 结构 中 提取 信息 。 有 助 于 静态 排名 的 其 他 特征 包括 提取 自 网 页 内 容 和 用 户 行为 的 
特征 (15.3.5 节 )。 

我 们 首先 在 15. 3. 1 节 介 绍 PageRank 的 基础 知识 作为 对 静态 排名 的 引入 ，PageRank 是 
简单 的 但 是 最 著名 的 链接 分 析 技 术 。 尽 管 该 节 介 绍 的 算法 一 般 被 称 为 PageRank， 但 其 在 
Web 搜索 中 的 实用 价值 可 能 有 限 ， 因 为 该 算法 基于 某 些 朴素 假设 ， 而 忽略 了 Web 结构 。 
15. 3. 2 节 和 15. 3. 3 节 中 将 介绍 并 分 析 这 些 算法 的 扩展 版 本 ， 使 之 更 好 地 适应 更 复杂 的 Web 
结构 。15. 3. 4 节 将 概要 介绍 其 他 链接 分 析 技 术 ，15. 3. 5 节 将 简略 介绍 适用 于 静态 排名 的 其 
他 特征 。15. 4 节 中 将 介绍 动态 排名 。 


15.3.1 基本 PageRank 


PageRank 是 在 20 世纪 90 年 代 中 期 ， 由 斯 坦 福 大 学 计算 机 学 院 研究 生 Larry Page 和 
Sergey Brin 共同 提出 的 。 这 个 算法 是 他 们 的 Backrub 搜索 引擎 的 核心 算法 ， 并 在 Google 中 
迅速 成 熟 起 来 。 

PageRank 算法 想象 一 个 用 户 在 Web 上 是 随机 浏览 的 。 在 用 户 的 浏览 器 中 ， 网 络 上 所 有 
网 页 都 是 可 访问 的 。 接 下 来 用 户 就 可 以 : 

D 点击 当 前 页 上 的 一 个 链接 。 

2) 通过 键入 网 址 ， 随 机 跳 转 到 一 个 独立 网 页 并 对 其 进行 访问 。 

在 任何 一 步 中 用 户 点 击 一 个 链接 的 固定 概率 设 为 $。 那 么 ， 进 行 直接 跳 转 的 概率 就 是 
1 一 6。6 的 合理 取 值 范围 是 0. 75~0. 90， 在 研究 文献 中 最 经 常 使 用 的 是 0. 85 。 简 单 起 见 ， 在 
实验 和 例子 中 我 们 取 8 一 3/4， 特 殊 说 明 除 外 。 

Web 图 中 的 汇 点 可 迫使 跳 转动 作 发 生 ， 当 我 们 浏览 到 一 个 汇 点 时 ， 我 们 一 定 总 是 选择 
跳 转 。 假 设 我 们 的 浏览 速度 非常 快 而 且 可 以 不 停 软 地 持续 很 长 一 段 时 间 ， 那 么 页 面 a 的 
PageRank 值 7 (a) 就 表示 该 页 面 被 用 户 浏览 的 相对 频率 。 

概率 83 有 时 是 指 重启 概率 (restart probability) 或 阻尼 系数 (damping factor), AWE 
降低 了 用 户 点 击 一 个 链接 的 概率 。 从 统计 学 角度 看 ， 与 不 允许 跳 转 的 等 价 算法 相 比 ， 采 用 阻 
尼 系 数 来 允许 进行 随机 跳 转 可 提高 PageRank 算法 的 稳定 性 CL 15. 3. 3 节 )。 非 正式 地 说 ， 
就 是 Web 图 中 小 的 变化 不 会 对 PageRank 造成 很 大 的 影响 。 

7(a) 的 值 可 采用 链接 到 它 的 网 页 的 PageRank 值 和 Web 图 中 汇 点 的 PageRank 值 表示 ， 
公式 如 下 : 


aed 


r(a)=6- (= BE P) 0)- yo (15-6) 


简单 起 见 ， 由 于 选择 是 任意 的 ， 我 们 假设 : 
S "(0)=N (15-7) 


ae® 
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适当 简化 该 公式 ， 可 得 ， 


"(0) =o: PE- out(8) +) | + (1 = ô) (15-8) 


AA Lace "(9)/N=1， 随 机 浏览 到 页 面 a 的 概率 是 7Ca)/N。 

接 下 来 ， 我 们 对 公式 15-8) 进行 详细 分 析 。 首 先 ， (1 一 8) 的 值 反映 了 随机 跳 转 到 页 
E a 的 贡献 度 。 分 析 其 他 来 自 链接 和 汇 点 的 对 a 页 面 的 PageRank 值 的 贡献 就 要 复杂 多 了 。 
从 链接 角度 看 ， 可 能 顺 着 页 面 6 的 链接 可 以 到 达 页 面 c。 因 为 页 面 8 上 可 能 有 多 个 指向 其 他 
网 页 的 链接 ， 所 以 网 页 对 网 页 的 PageRank 值 的 贡献 就 依赖 它 的 出 度 out(8) 。 最 后 ， 汇 点 对 
网 页 a 的 PageRank 值 的 贡献 就 显得 较 小 了 。 这 是 因为 在 Web 图 中 汇 点 7? 可 能 指向 图 中 的 


FE fa 页 么 汇 点 对 PageRank 值 做 出 的 贡献 为 
r(y/N. 


对 图 15-2 的 Web 图 应 用 公式 (15-8) 可 得 出 以 下 公式 ，; 
r(wo) = ô- (rew + riwe) + r(ho) + rm) + (1-6) 


r(wi)= ô. (m) + 

















r(w2)=8: 


( 
r(ho)=6- (Se +r(hi) + re) +(1-8) 
( 





r(hi)=6 , 








r(m) =6- (e + mo) +(1—56) 
$ 8 二 3/4， 简 化 可 得 : 


roo) = 20nd p Sela) q rlo) rene) + 








r(wy) eo) + rime) + i 

r(wa) = ro) + ra) 4 1 

r(ho) = Moo) + Sra) | re) 二 
r(ha) = rmo) 

r(mo) = rewa) + rine) + i 


为 计算 PageRank， 我 们 需 解 得 线性 系统 公式 中 的 6 个 变量 rw), rw), rw), 
rho). rh DFA 7(C7ao) 的 值 。 有 很 多 算法 可 以 用 来 求解 线性 系统 的 数值 解 ， 上 面 介 绍 的 就 


是 其 中 一 种 。 这 种 适用 求 PageRank 值 的 方法 其 实 是 不 动 点 迭代 (fixed-point iteration) 的 
一 种 形式 。 
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不 动 点 迭代 是 解决 公式 、 线 性 以 及 其 他 系统 问题 的 常规 技术 。 使 用 时 ， 每 个 变量 用 一 个 
关于 其 他 变量 和 自己 的 函数 来 表达 。PageRank 公式 已 经 写成 了 这 种 形式 ， 公 式 左边 是 各 个 
单独 出 现 的 网 页 的 PageRank 值 ， 而 公式 右边 是 这 些 PageRank 值 的 函数 。 

算法 开始 时 先 给 各 个 变量 一 个 初始 化 估计 。 然 后 将 这 些 值 代 和 人 公式 右边 ， 从 而 每 个 变量 
得 到 一 个 新 的 近似 值 。 重 复 上 述 操作 ， 不 断 带 人 当前 值 以 获得 新 的 近似 值 。 如 果 得 出 的 值 收 
敛 ， 即 每 次 迭代 产生 相同 的 结果 ， 那 么 就 得 到 公式 系统 的 解 。 

这 种 方法 为 每 个 页 面 a 产生 了 一 系列 的 近似 值 >(a) :7 Cad. PP Ca). r? Ca) HR 
设 定 每 个 网 页 的 初始 值 为 *o (a) 二 1， 我 们 可 以 得 到 公式 (15-7) 所 需 的 ， 





2 r=N (15-9) 
acd 
根据 公式 (15-8)， 使 用 以 下 公式 从 现 有 的 近似 值 计 算出 新 的 近似 值 ; 
(n+HD 5s. T(n")(B) ro) (y) B 
rig) =6 (= oul) +h W +(1—6) | (15-10) 


对 图 15-2 所 示 的 Web 图 计算 PageRank fH, ALU PAH: 














r+) (wo) = srm n) + 3r Awa) +3r + mimo) + 1 +1 
rn 二 1) (w ) 一 in) (wo) + S e (mo) + 1 
4 8 4 
(n) (n) 
Mt (yy) = Wo) , r (mo) 1 
mv (2) 4 tg 74 
(n) 3r™ (hi)  r™(mo) 1 
DhE (wa) r 1 0) ， 工 
mur (ho) 1 t+ 4 + @ 74 
rt (hy) = rin (mo) 5 
sei (we) rm) 1 
(n+1) 0 a 
r (mo) 3 + 一 人 +5 


表 15-1 给 出 了 这 个 公式 系统 对 PageRank 值 的 逼近 过 程 。 第 18 次 迭代 后 估计 值 精确 到 小 数 
点 后 3 位 。 


表 15-1 迭代 计算 图 15-1 中 的 Web 图 的 PageRank 值 





n 7 (wo) r™® Cw) r™ Cw2) r™ Cho) rœ (hy) r (mo) 
0 “ 1. 000 1. 000 1. 000 1. 000 1. 000 1. 000 
1 2. 250 0. 625 0. 625 1. 375 0. 375 0. 750 
2 2.078 0. 906 0. 906 1. 188 0. 344 0. 578 
3 2. 232 0. 842 0. 842 1. 100 0. 322 0. 662 
4 2. 104 0. 891 0. 891 1. 133 0. 333 0. 648 
5 2. 183 0. 857 0. 857 1. 107 0. 331 0. 665 
6 2. 128 0. 879 0. 879 1. 127 0. 333 0. 655 
7 2. 166 0. 864 0. 864 1.114 0. 332 0. 661 
8 2. 140 0. 874 0. 874 1. 123 0. 333 0. 657 
9 2. 158 0. 867 0. 867 1.116 0. 332 0. 660 
10 2.145 0. 872 0. 872 1.121 0. 332 0. 658 
11 2. 154 0. 868 0. 868 1. 118 0. 332 0. 659 
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($8) 
n r (wo) r™ (w) rœ (wz) rw (ho) r™® Chi) r™® (mo) 
12 2. 148 0. 871 0. 871 1.120 0. 332 0. 658 
13 2. 152 0. 869 0. 869 1.119 0. 332 0. 659 
14 2. 149 0. 870 0. 870 1. 120 0. 332 0. 658 
15 2.151 0. 870 0. 870 1.119 0. 332 0. 659 
16 2.150 0. 870 0. 870 1.119 0. 332 0. 658 
17 2.151 0. 870 0. 870 1. 119 0. 332 0. 659 
18 2. 150 0. 870 0. 870 1.119 0. 332 0. 658 
19 2. 150 0. 870 0. 870 1.119 0. 332 0. 659 

0. 


20 2. 150 0. 870 0. 870 1.119 332 0. 658 


图 15-6 为 计算 PageRank 的 详细 算法 。 算 法 假设 Web 图 中 的 网 页 分 别 用 1~N 连续 标 
记 ， 用 长 度 为 的 数组 来 存放 Web 图 中 的 链接 ，Link[Li]. from 表示 链接 的 来 源 ，Link[ ij. to 
表示 链接 的 目的 地 。 数 组 R 存放 当前 PageRank 的 近似 值 ， 数 组 R' 存 放 新 的 近似 值 。 


forie~-ltoN do 
Rij 1-6 

for k — 1 to Edo 
i — link{k].from 


j +— link{k].to 
RU] — Rl + Sas 
se N 
for i 1 to N do 
se-s— RM 
for i — 1 to N do 
Rfi] — R'[i] + s/N 





图 15-6 基本 的 PageRank 算法 。 数 组 link 用 于 存储 Web 图 中 的 链接 。 第 3 一 14 行 是 一 个 无 限 循环 。 每 次 
该 循环 结束 后 ， 数 组 R 中 存放 的 是 所 有 页 面 PageRank 值 的 最 新 估计 。 实 际 应 用 中 ， 当 多 次 迭代 
后 的 PageRank 值 小 于 某 个 阔 值 时 ， 或 进行 了 一 定 次 数 选 代 后 ， 循 环 将 终止 


第 1 一 2 行 的 循环 设置 R 的 初始 近似 值 。 主 循环 (第 3 一 14 行 ) 每 次 迭代 完成 后 数组 
R 中 存放 的 都 是 下 一 个 近似 值 。 从 代码 上 看 ， 这 构成 了 一 个 无 限 循环 。 实 际 上 ， 一 旦 近似 
值 收 全 或 迭代 一 定 次 数 后 就 应 停止 循环 。 我 们 没有 给 出 确切 的 终止 条 件 ， 是 因为 它 取决 于 期 
望 的 准确 度 和 计算 的 查 准 率 。 在 大 多 数 Web 图 中 ， 几 百 次 迭代 就 可 得 到 可 接受 的 值 了 。 主 
循环 每 次 迭代 需要 时 间 为 ONHE); WNAE SARE RR EMER. 

第 A~5 行 通过 存储 跳 转 贡献 值 来 初始 化 数组 R'。 第 6 一 9 行 依次 考虑 每 个 链接 ， 求 取 
源 网 页 对 目标 网 页 的 PageRank 值 的 贡献 。 由 于 并 aes "(9) 一 NN， 汇 点 集 的 贡献 可 忽略 不 计 。 
相反 地 ， 在 初始 化 R' 以 及 应 用 链接 数 以 后 ， 我 们 对 R' 中 的 元 素 进行 求 和 。 求 和 结果 与 入 的 
差 值 就 是 2) ,jr (Y) Bl Web 图 中 汇 点 的 贡献 值 。 

作为 第 6~9 行 的 一 个 替代 ， 我 们 也 可 以 迭代 所 有 的 节点 。 对 于 每 个 节点 ， 我 们 累加 所 
有 指向 它 的 节点 的 PageRank 贡献 值 ， 直 接 完成 公式 (15-8) 的 计算 。 尽 管 这 种 替代 对 于 小 
的 Web 图 是 合理 的 ， 但 是 县 前 的 这 个 方法 对 链接 进行 迭代 所 使 用 的 数据 结构 更 简单 ， 也 更 
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节省 内 存 空间 ， 这 对 于 大 规模 的 Web 图 来 说 是 很 重要 的 考虑 因素 。 

对 链接 进行 选 代 允许 我 们 将 链接 存储 在 磁盘 文件 中 ， 进 一 步 降 低 了 内 存 需求 。 不 需要 在 
数组 上 进行 迁 代 ， 在 主 循环 的 每 一 次 欠 代 中 ， 第 6 一 9 行 的 循环 都 会 从 头 到 尾 顺 序 读 取 这 个 
链接 文件 一 次 。 如 果 链 接 存放 在 磁盘 文件 中 , .算法 就 只 需要 O CN) 的 内 存 空 间 来 存储 数组 
RAR’, 

为 证 明 该 算法 可 用 于 大 规模 的 Web 图 ， 我 们 对 英文 版 的 维基 百科 网 站 应 用 该 算法 〈 见 
练习 1. 9) 。 表 15-2 中 列 出 了 排名 前 12 位 的 网 页 。 毫 不 意外 ， 由 于 处 理 的 只 是 英文 版 的 维基 
百科 ， 所 以 排名 靠 前 的 主要 是 使 用 英文 的 国家 。 剩 下 的 也 都 是 经 济 发 达 的 国家 ， 并 且 和 美国 
或 其 他 使 用 英文 的 国家 关系 密切 。 在 维基 百科 中 日 期 链接 通常 也 扮演 着 重要 角色 ， 这 就 是 为 
什么 年 份 越 靠近 现在 排名 越 靠 前 。20 世纪 最 重大 的 事件 “第 二 次 世界 大 战 ”排名 靠 前 也 是 
意料 之 中 的 事 。 总 而 言 之 ， 这 些 排名 反映 了 维基 百科 的 作者 所 处 的 时 代 和 文化 ， 这 是 一 个 合 
理 的 结果 。 


表 15-2 对 维基 百科 网 应 用 基本 的 PageRank 算法 得 到 的 排名 前 12 的 网 页 


网 页 : a PageRank; r(a) WE. r(a)/N 
美国 (United States) 10 509. 50 0. 004 438 
英国 (United Kingdom) 3 983.74 0. 001 682 
2006 3 781. 65 0.001 597 
英国 (England) 3 421. 03 0. 001 445 
法 国 (France) 3 340. 53 0. 001 411 
2007 3 301. 65 0. 001 394 
2005 3 290. 57 0. 001 389 
德国 (Germany) 3 218. 33 0.001 359 
HMAK (Canada) 3 090. 20 0. 001 305 
2004 2 742. 86 0. 001 158 
澳大利亚 (Australia) 2 441. 65 0. 001 031 
第 二 次 世界 大 战 (World War I> 2 417. 38 0. 001 021 


15.3.2 扩展 的 PageRank 


如 果 我 们 重新 检视 和 考虑 PageRank 算法 的 初衷 ;随机 浏览 ， 那 么 基本 的 PageRank 算 
法 的 局 限 性 就 变 得 明显 了 。 现 实 中 没有 用 户 是 以 这 种 随机 方式 浏览 Web 的 。 即 使 我 们 将 随 
机 浏览 视 为 是 人 为 构造 的 一 -代表 了 Web 用 户 的 普遍 行为 一 -将 随机 选择 链接 和 跳 转 看 成 
均匀 分 布 仍然 是 不 现实 的 。 

更 现实 一 点 讲 ， 随 机 浏览 的 用 户 应 该 会 偏向 于 某 类 链接 或 跳 转 。 例 如 ， 相 比 于 指向 广告 
的 链接 ， 她 更 喜欢 导航 链接 ， 相 比 于 网 页 下 面 的 链接 ， 她 更 喜欢 网 页 顶端 的 链接 ， 相 比 于 点 
击 那些 字体 超 小 或 隐藏 字体 的 链接 ， 她 更 喜欢 点 击 正常 字体 的 链接 。 当 随机 浏览 用 户 进 行 随 
机 跳 转 时 ， 顶 层 的 网 页 比 深层 嵌 套 的 网 页 更 受 欢 迎 ， 持 久 存在 的 网 页 也 比 刚 出 现 的 网 页 更 受 
欢迎 ， 文 字 较 多 的 网 页 比 文字 较 少 的 网 页 更 受 欢 迎 。 

很 幸运 ， 可 以 很 容易 地 扩展 PageRank 算法 来 适应 以 上 用 户 偏好 。 为 适应 用 户 的 跳 转 倾 
向 ， 可 定义 一 个 传送 向 量 (teleport vector) 或 跳 转 向 量 Gump vector) J， 长 度 为 N， 其 
中 元 素 J 拒 记 表 示 当 随机 浏览 用 户 跳 转 到 目标 页 面 i 的 概率 。 由 于 J 是 一 个 概率 向 量 ， 需 要 
AEN, J=. J 的 一 些 元 素 可 取 0， 但 这 可 能 会 导致 某 些 页 面 的 PageRank 值 为 0。 如 
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R J 的 所 有 元 素 的 取 值 均 为 正 值 ， 即 对 所 有 1SiSN MA ILI IOO, PARAM Pag 
eRank 值 均 为 非 0 (15. 3. 3 节 )。 

为 了 适应 用 户 的 点 击 链接 的 倾向 ， 定 义 一 个 大 小 为 NXNN 的 追随 矩阵 (ollow matrix) 
五 ， 其 中 元 素 FLi IRB PA i 跳 转 到 页 面 7 的 概率 。 如 果 页 面 不 是 汇 点 ， 
ARSE: F 中 对 应 行 的 总 和 为 1， 即 Dy» Fli j] = 1 。 如 果 页 面 i 是 汇 点 ， 则 所 在 行 的 元 
素 值 的 总 和 为 0。 

F ERM (sparse), N’ 个 元 素 中 至 多 有 马 个 非 零 元 素 ， 每 个 元 素 对 应 一 个 链接 。 在 
实现 扩展 PageRank 算法 时 ， 我 们 利用 了 的 这 一 特性 。 算 法 如 图 15-7 所 示 。 除 了 第 5、9 
和 14 行进 了 泛 化 以 使 用 跳 转 向 量 和 追随 抢 阵 以 外 ， 该 算法 与 基本 PageRank 算法 类 似 。 这 
种 泛 化 对 算法 的 时 间 复 杂 度 并 没有 影响 ， 主 循环 每 次 迭代 耗 时 仍 为 ONHE). 

由 于 下 是 稀 玖 的 ，F 中 的 元 素 可 能 与 其 对 应 的 链接 存储 在 一 起 。 更 具体 地 讲 ， 我 们 可 
以 给 数组 中 的 每 个 元 素 添加 一 个 域 ， 如 下 定义 : 

link|k].follow =F [link[k].from, link|k].to] 








1 for i — 1 to N do 

2 RE Jf} N 

3 loop 

4 for į — 1 to N do 

5 R'{i] — (1 — ô) - J] - N 
6 for k — 1 to E do 

7 i «— link{k].from 

8 j — link[k].to 

9 R' |j] — BU] + ô- RG: Fii, j] 
10 sN 

11 for į — 1 to N do 

12 s s— R'E 

13 for i — 1 to N do 

14 Ri] — Rl] + s- Jii] 





图 15-7 扩展 的 PageRank 算法 。 跳 转向 量 J 的 每 个 元 素 JJ[L 记 表示 用 户 随 机 跳 转 到 页 面 i 的 概率 。 和 追 
BBM FPWR Ci, j) 表示 用 户 点 击 链接 时 从 页 面 i 跳 转 到 页 面 j 的 概率 


扩展 的 链接 数组 也 可 以 存储 在 磁盘 文件 中 ， 修 改 后 的 第 6~9 行 在 这 个 文件 上 进行 和 迭代 。 通 
过 将 链接 存储 在 磁盘 上 ， 该 算法 只 需要 OMK RAM 空间 来 存储 数组 R 和 尽 ' 以 及 跳 转向 量 J. 

用 这 个 扩展 算法 来 计算 基本 的 PageRank 值 ， 我 们 构造 一 个 跳 转向 量 ， 其 全 部 元 素 均 为 
1/N。 对 于 追随 矩阵 ， 设 页 面 c 指向 的 所 有 页 面 的 元 素 值 均 为 1/outCa) ， 其 余 元 素 值 均 取 0。 
如 果 我 们 将 图 15-2 中 Web 图 的 节点 从 1 一 6 依次 编号 命名 为 Wo. Wi, Ww, hoy hi W Mo, 
则 可 得 基本 PageRank 的 追随 矩阵 和 跳 转 向 量 : ， 


0; 5300 š 
100 00 0 z 
3 00004 z 
F=| ? t j J=| 1 (15-11) 
100 00 0 z 
000 10.0 i 
000 00 0 é 


现在 ,假设 我 们 已 知 一 些 外 部 信息 ， 网 站 W 中 的 内 容 都 是 高 质量 且 经 过 仔细 编纂 的 ， 
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同时 其 他 网 站 中 的 信息 的 相对 质量 是 未 知 的 。 我 们 可 以 对 追随 矩阵 和 跳 转 向 量 进 行 调整 来 反 
映 这 个 情况 ,假设 随机 浏览 用 户 通 过 链接 或 跳 转 而 访问 W 网 站 的 概率 要 比 访问 其 他 网 站 高 
两 倍 ， 具 体 调 整 如 下 : 


2 2 

0% % 300 3 
100000 2 
2 1 2 
2 00 00 3 5 

F=| 3 3 |, J=| 7 (15-12) 

10000 0 3 
00010 0 i 
000 00 0 3 


对 一 般 Web 检索 而 言 ， 为 反映 外 部 知识 ， 我 们 可 能 会 对 追随 矩阵 和 跳 转向 量 做 很 多 次 
调整 。 但 一 般 来 说 ， 不 应 做 那些 反映 Web 图 本 身 属性 的 调整 。 例 如 ， 假 如 很 多 网 页 指向 一 
个 给 定 网 页 ， 我 们 可 将 该 网 页 看 成 是 “ 受 欢迎 程度 ” 较 高 的 网 页 ， 从 而 增 大 跳 转 向 量 中 它 的 
概率 值 。 尽 量 不 要 进行 这 样 的 调整 。 这 种 类 型 的 调整 是 不 需要 也 不 推荐 的 。 当 调整 追随 矩阵 
和 跳 转 向 量 时 应 只 关注 外 部 信息 。 这 是 PageRank 的 本 职工 作 : 反映 Web 图 的 性 质 。 

建立 追随 矩阵 和 跳 转 向 量 应 考虑 到 很 多 外 部 信息 。 受 篇 幅 限 制 ， 我 们 无 法 描述 和 分 析 所 
有 可 能 的 情况 ， 只 给 出 如 下 可 能 的 情况 。 这 个 信息 列表 还 不 够 详尽 〈 见 练习 15. 6) ， 而 且 在 
实际 应 用 中 并 非 会 用 到 所 有 (或 任 一 ) 建议 。 

。 页 面 内 容 与 结构 。 在 网 页 抓 取 和 索引 过 程 中 ， 搜 索引 擎 会 对 将 要 出 现在 浏览 器 中 的 
页 面 的 结构 和 组 织 进行 分 析 。 该 分 析 将 根据 网 页 布局 和 外 观 对 链接 赋予 不 同 的 概率 
值 。 例如， 用 户 可 能 更 喜欢 点 击 在 页 面 顶 部 或 菜单 栏 里 的 链接 。 页 面 内 容 的 诸多 方 
面 都 可 以 反映 出 页 面 质 量 ， 使 页 面 更 易于 成 为 跳 转 的 目标 ， 从 而 影响 跳 转 向 量 的 值 。 
大 块 的 可 读 文 档 可 理解 为 一 个 正面 因素 ，HTML 标签 较 多 而 文本 较 少 则 可 能 是 一 个 
负面 因素 。 字 体 过 小 或 不 可 读 都 会 误导 搜索 引擎 ， 使 得 当 页 面 显示 的 时 候 用 户 看 到 
的 信息 是 错误 的 。 

网 站 内 容 与 结构 。 用 户 往往 更 倾向 于 访问 站 点 的 顶层 网 页 ， 而 不 喜欢 访问 深层 骨 套 
的 网 页 。 并 且 ， 越 长 的 网 址 用 户 越 不 容易 记 住 ， 也 不 太 会 直接 在 浏览 器 地 址 栏 中 输 
入 。 网 站 中 网 页 的 数量 也 是 确定 跳 转 向 量 时 应 考虑 的 因素 之 一 : 一 个 网 站 不 应 该 因 
为 其 包含 的 网 页 多 就 获得 更 高 的 跳 转 概率 。 从 网 站 本 身 来 看 ， 用 户 更 倾向 于 根据 网 
站 导航 逐步 访问 站 内 链接 ， 而 不 喜欢 点 击 一 个 跳 转 到 其 他 网 站 的 链接 。 另 一 方面 ， 
一 些 教育 站 点 和 商业 站 点 之 间 的 链接 会 更 受 欢 迎 ， 因 为 这 些 链 接 的 商业 目的 不 是 很 
强 ， 更 迎合 大 众 口味 。 同 时 ， 较 早 成 立 的 较为 成 熟 的 网 站 会 比 新 网 站 更 受 欢迎 。 

显 式 判 断 。 雇 用 编辑 人 工 确定 〈 分 类 ) 那些 高 质量 的 网 站 ， 从 而 这 些 网 站 获得 更 高 
的 跳 转 概率 。 这 些 编辑 们 有 的 是 搜索 服务 本 身 的 专家 ， 也 有 一 些 是 为 如 开放 式 目 录 
管理 系统 (ODP 一 一 见 Open Directory ProjectS ) 这 样 的 Web 目录 工作 的 志愿 者 。 主 
流 搜索 引擎 会 让 内 部 员工 来 管理 他 们 自己 的 Web 目录 ， 将 其 作为 整体 服务 的 一 部 分 。 
隐 式 反馈 。 点 击 Web 搜索 结果 上 的 网 页 可 以 看 成 是 对 该 网 页 质量 进行 了 隐 式 反馈 
( 见 15.5.2 节 )。 很 多 主流 搜索 服务 都 提供 工具 条 《toolbar)。 这 些 浏览 器 的 扩展 功能 
为 补充 基本 搜索 服务 提供 了 支持 。 经 用 户 许可 ， 工 具 条 可 将 与 用 户 的 访问 习惯 相关 的 
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信息 反馈 给 搜索 服务 。 用 户 访问 的 站 点 和 网 页 可 能 会 被 记录 下 来 ， 用 来 调整 追随 矩 
阵 和 跳 转向 量 。 许 多 搜索 服务 也 提供 免费 电子 邮箱 账号 。 访 问 通过 这 些 电 子 邮件 服 
务 发 送 的 链接 可 以 直接 到 达 这 些 搜索 服务 ， 也 反映 了 网 站 和 网 页 的 质量 。 当 然 ， 所 
有 的 隐 式 反馈 都 是 在 保护 用 户 隐私 的 前 提 下 进行 的 。 
对 跳 转 向 量 的 调整 也 可 用 来 计算 PageRank 的 各 种 变形 。 为 计算 个 性 化 PageRank (person- 
alized PageRank) ， 我 们 对 个 人 用 户 感 兴趣 的 网 页 赋予 较 高 的 跳 转 概率 (Page 等 人 ，1999) 。 
这 些 页 面 可 通过 用 户 的 浏览 器 书签 或 个 人 主页 得 到 ， 也 可 以 通过 监测 其 一 段 时 间 内 的 浏览 习 
惯 来 完成 。 面 向 主题 的 PageRank (topic-oriented PageRank) 或 聚焦 的 PageRank (focused 
PageRank) 会 给 那些 与 如 体育 、 商 业 等 特定 主题 相关 的 网 页 较 高 的 跳 转 概率 (Haveliwala， 
2002) 。 这 些 面向 主题 的 网 页 可 能 来 自 诸如 开放 式 目录 管理 系统 (ODP) 这 样 的 Web BX. 
例如 ， 我 们 从 维基 百科 语料库 中 选取 一 个 网 页 ， 然 后 专门 针对 这 个 网 页 ， 生 成 特定 主题 
的 PageRank 值 。 为 生成 跳 转 向 量 ， 我 们 将 50% 的 跳 转 概率 赋予 选 定 页 面 ， 剩 余 的 50 多 平均 
分 配给 其 他 网 页 。 为 确保 所 有 网 页 都 得 到 一 个 非 零 的 PageRank 值 ， 我 们 给 跳 转向 量 的 每 个 元 
素 都 赋予 一 个 非 零 值 ， 但 事实 上 就 算 我 们 为 选 定 页 面 赋予 100% 的 跳 转 概率 ， 输 出 也 不 会 改变 。 
表 15-3 所 示 为 两 个 主题 “William Shakespeare” 和 “JInformation Retrieval” 的 前 12 位 
网 页 。 对 于 “Information Retrieval” 这 个 主题 ， 面 向 特定 主题 的 Page Rank 会 为 许多 与 此 
主题 相关 的 页 面 赋予 高 分 。 在 第 2 章 和 第 8 章 中 出 现 过 的 名 字 Karen Sparck Jones 和 Gerard 
Salton; 风格 斯 大 学 (Rutgers University) ， 伦 敦 城市 大 学 〈City University London) 和 格 
拉 斯 哥 大 学 (University of Glasgow), ， 它 们 都 拥有 杰出 的 信息 检索 研究 小 组 ;Google 和 SI- 
GIR 的 出 现 就 更 加 不 足 为 奇 了 。 然 而 令 人 惊讶 的 是 ， 主 题 “William Shakespeare” 的 Pag- 
eRank 结果 与 图 15-2 中 的 一 般 的 PageRank 结果 非常 接近 。 除 了 “English language” 的 网 
站 和 莎士比亚 主页 以 外 ， 其 他 网 页 都 出 现在 了 一 般 的 PageRank 结果 的 前 12 位 。 尽 管 我 们 
进行 的 是 特定 主题 的 搜索 ， 美 国 的 网 页 还 是 在 两 个 列表 中 都 位 居 第 二 。 


表 15-3 ”在 维基 百科 中 ， 为 两 个 主题 采用 特定 主题 的 PageRank 算法 后 排名 前 12 位 的 网 页 






















William Shakespeare Information Retrieval 
文章 文章 PageRank 
William Shakespeare 303 078.44 || Information retrieval 305 677.03 
United States 7 200.15 || United States l 8831.25 
England 5 357.85 || Association for Computing Machinery 6 238.30 
London 3 637.60 || Google 5510.16 
United Kingdom 3 320.49 || GNU General Public License 4811.08 
2007 3 185.71 || World Wide Web 4696.78 
France 2 965.52 || SIGIR 4 456.67 
English language 2 714.88 || Rutgers University 4389.07 
2006 2 702.72 | Karen Sparck Jones 4 282.03 
Germany 2 490.50 || City University, London 4274.76 
2005 2 377.21 || University of Glasgow 4222.44 
Canada 2 058.84 || Gerard Salton 4171.45 








特定 主题 的 PageRank 和 一 般 的 PageRank 都 揭示 了 同一 个 网 页 集合 中 的 概率 分 布 。 继 
续 讨论 刚刚 的 例子 ， 通过 比较 这 些 分 布 我 们 可 一 个 到 更 加 明确 的 结果 。 在 9.4 节 中 我 们 定义 
了 kullback-Leibler 距离 ， 或 称 为 KL 距离 ， 即 离散 概率 分 布 f 和 9g 之 间 的 相对 焕 : 
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27 (z) - log a (15-13) 


这 里 我 们 定义 了 为 特定 主题 的 PageRank, g 为 一 般 的 PageRank， 且 对 它们 进行 归 一 化 以 表 
示 概 率 。 根 据 每 个 网 页 a MS Mg SADE (contribution) 对 其 重新 进行 排名 : 
f(a) - log Fla) (15-14) 
gla) 
回顾 如 果 我 们 用 分 布 g BIE MAAS, BAARNE A SE a 
外 增加 的 位 的 数量 。 公 式 (15-14) 表明 额外 增加 的 位 数 由 页 面 决定 。 表 15-4 列 出 了 使 用 
公式 (15-14) 对 特定 主题 的 PageRank 进行 调整 后 所 产生 的 影响 。 


表 15-4 ”根据 每 个 网 页 对 相对 炳 (特定 主题 的 PageRank 与 一 般 的 PageRank) 的 贡献 重新 获得 特定 主 














题 的 PageRank 的 排名 
William Shakespeare Information Retrieval 
文章 xt | 文章 AAT 
William Shakespeare 1. 505 587 Information Retrieval 2. 390 223 
First Folio 0. 007 246 SIGIR 0. 027 820 
Andrew Cecil Bradley 0. 007 237 Karen Sparck Jones 0. 026 368 
King’s Men (playing company) 0. 005 955 C.J. van Rijsbergen 0. 024 170 
Twelfth Night , or What You Will 0. 005 939 Gerard Salton 0. 024 026 
Lord Chamberlain’ s Men 0. 005 224 Text Retrieval Conference 0. 023 260 
Ben Jonson 0. 005 095 Cross-language information retrieval 0. 022 819 
Stratford-upon-Avon 0. 004 927 Relevance (information retrieval) 0. 022 121 
Richard Burbage 0. 004 794 Assoc. for Computing Machinery 0. 022 051 
George Wilkins 0. 004 746 Sphinx (search engine) 0. 021 963 
Henry Condell 0. 004 712 Question answering 0. 021 773 
Shakespeare’s reputation 0. 004 710 Divergence from randomness model 0. 021 620 





现在 ， 所 有 排名 靠 前 的 网 页 都 是 与 主题 相关 的 网 页 。Andrew Cecil Bradley 是 斯 坦 福 大 
学 的 一 名 教授 ， 他 以 关于 莎士比亚 的 戏剧 和 诗集 的 著作 而 闻名 。Ben Jonson 和 George 
Wilkins 是 跟 莎士比亚 同一 时 期 的 剧 作家 。Richard Burbage 和 Henry Condell 是 King’s Men 
戏剧 公司 出 演 莎士比亚 作品 的 演员 和 剧组 成 员 。 在 “Information Retrieval” 一 栏 ，Spirck 
Jones 和 Salton 以 及 C. J. (Keith) van Rijsbergen 都 是 该 领域 的 巨 反 。Sphinx 是 一 个 基于 关 
系数 据 库 系 统 的 开源 搜索 引擎 。 其 他 的 搜索 结果 应 该 是 读者 们 耳熟能详 的 了 。 i 


15.3.3 PageRank 的 性 质 


在 阐述 PageRank 时 我 们 忽略 掉 了 几 个 很 重要 的 考虑 因素 : 如 图 15-7 中 的 不 动 点 迭代 总 

是 会 收敛 的 吗 ? 对 某 些 Web 图 而 言 该 算法 会 不 会 失效 ? 如 果 算 法 收敛 ， 那 么 收敛 速度 又 如 
何 ? 忽略 初始 估计 值 ， 该 算法 每 次 都 会 收敛 到 同一 PageRank 向 量 吗 ? 

幸运 的 是 ，PageRank 算法 具有 保证 运行 正常 的 人 性质。 为 简单 讨论 这 些 性 质 ， 我 们 将 追 

随和 矩阵 与 跳 转向 量 结合 起 来 得 出 一 个 转移 矩阵 〈transition matrix) 。 首 先 对 以 下 矩阵 进行 扩 

展 以 处 理 汇 点 ， 设 P'S NX N BORER: 

Fli,j)= | J ul | FOA 

Fii) 否则 
接 下 来 ， 令 J 为 一 个 NXN 的 矩阵 ， 其 中 每 个 行 元 素 均 是 一 个 跳 转 向 量 。 最 后 ， 得 到 的 转 


(15-15) 
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移 和 矩阵 如 下 : 

M=6- F'+(1—6)-J' (15-16) 
对 于 页 面 i 和 7;，M Li， 让 表示 不 管 是 通过 跳 转 还 是 点 击 链接 ， 随 机 浏览 用 户 从 页 面 i 转 
移 到 页 面 7 的 概率 。 例 如 ， 由 公式 (15-12) 中 的 PAS Bae: 


A 16 16 37 1 1 
18 45 45 180 18 证 
29 1 12 12 12 L 
36 18 18 18 18 18 
5 1 1 12 1 n 
— 9 T 1 1 1 36 
M= 7 1 1 1 N 1 (15-17) 
9 36 36 36 36 36 
4 2a 1 了 A L 
36 36 36 9 36 36 
了 了 了 工 l 1 
36 36 36 9 9 9 


正如 1.3.4 节 中 所 述 ， 可 以 把 随机 和 抢 阵 M 看 做 一 个 代表 马尔 可 夫 链 转移 矩阵 的 随机 和 矩 阵 。 
每 个 页 面 对 应 一 个 状态 ; 随机 浏览 用 户 开 始 时 访问 的 初始 位 置 设 为 初始 状态 。 此 外 ，Pag- 
eRank 向 量 R 具有 如 下 性 质 . 

MTR=R (15-18) 
可 以 把 R 看 做 矩阵 MT 的 特征 向 量 S， 特 征 值 均 为 1。 给 定 一 个 nX n 的 矩阵 A， 如 果 
AE= 和 #， 则 称 式 为 A 的 特征 向 量 (eigenvector)， 和 为 A 的 特征 值 (eigenvalue), 

对 于 马尔 可 夫 链 和 特征 向 量 的 了 解 已 经 足够 多 了 ， 接 下 来 我 们 可 以 将 其 用 于 判断 Pag- 
eRank 的 性 质 。 简 单 起 见 ， 暂 时 假设 跳 转 向 量 中 所 有 元 素 都 是 正 的 ， 但 是 当 元 素 值 为 0 时 这 
些 性 质 仍 然 成 立 。 后 面 章 节 我 们 再 考虑 跳 转 向 量 有 0 个 元 素 的 情况 。 

潜在 PageRank 是 指 当 随机 浏览 用 户 长 时 间 浏 览 网 站 时 ， 他 在 每 个 网 页 上 所 耗 的 时 间 收 
敛 于 一 个 固定 值 ， 这 个 值 与 用 户 起 始 访问 地 址 是 无 关 的 。 这 个 概念 就 反映 了 马尔 可 夫 链 的 一 
个 重要 特性 一 一 遍历 性 〈ergodicity) 。 如 果 两 个 性 质 都 成 立 ， 说 明 该 马尔 可 夫 链 是 遍历 的 
(ergodic)， 当 J 中 元 素 值 都 为 正 时 ， 则 对 于 M 也 成 立 。 第 一 个 性 质 ， 不 可 约 性 (irreduci- 
bility)， 是 指 随机 浏览 用 户 可 以 在 有 限 步 数 内 从 任意 一 个 状态 到 达到 其 他 任意 状态 。 更 确切 
地 说 ， 给 定 任意 两 个 状态 和 7 ， 若 用 户 当前 处 于 状态 i， 存 在 一 个 正 概率 使 得 用 户 在 步 
以 内 到 达 状 态 j， 其 中 kN。 如 果 跳 转向 量 元 素 仪 包含 正 数 ， 则 对 于 所 有 的 状态 i 和 ;7 有 
M Li, j] 之 0， 且 存在 一 个 正 概率 使 得 用 户 从 状态 i 经 过 k= 二 1 步 就 能 到 达 状 态 j。 

第 二 个 性 质 ， 转 移 和 矩阵 必须 是 非 周期 的 (aperiodic)， 排 除 马 尔 可 夫 链 中 存在 多 值 之 间 
的 状态 循环 的 概率 。 状 态 i 在 周期 k 内 是 周期 的 《periodic)， 是 指 经 过 的 倍数 步 后 能 够 重 
新 回 到 本 身 。 例 如 ， 若 用 户 总 是 经 过 偶数 步 后 返回 到 同一 状态 ， 那 么 这 个 状态 的 周期 为 2。 如 
果 和 矩阵 所 有 状态 的 周期 均 为 1， 则 称 该 矩阵 是 非 周 期 的 。 因 为 对 于 所 有 状态 有 M Li, j] > 
0， 所 以 用 户 可 从 一 个 状态 跳 到 其 他 任 一 状态 。 因 此 ， 满足 所 有 状态 的 周期 均 为 1 这 一 性 质 。 

设 MT 的 特征 向 量 为 充 ! ， 充 ，…， 充 w， 对 应 的 特征 值 为 MA ，…， 和 w。 按 惯例 对 这 些 特 
征 向 量 进行 排序 ， 可 得 | 和 1 | 之 | 和 2 | 之 … 宇 | 和 Aw|。 由 于 MT 中 所 有 元 素 值 均 为 正 ， 且 行 元 素 
和 为 1， 由 佩 龙 - 弗 罗 宾 尼 斯 定理 (Perron-Frobenius theorem) 可 知 X: 一 1， 所 有 其 他 特征 值 
均 满 足 | 和 ;| 二 1， 且 č 中 所 有 元 素 均 为 正 数 。 因 此 ，M7 的 主 特征 向 量 (principal eigenvector) 
是 PageRank 向 量 (PageRank vector)。 按 惯例 ， 特 征 向 量 需 规范 化 到 单位 长 度 ， 对 所 有 i 有 
| č: || =1, Æt =R/N. 








O 如 果 你 已 经 忘记 了 线性 代数 的 一 些 知识 ， 可 以 参考 15. 3. 4 节 前 面 的 部 分 。 
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现在 我 们 用 矩阵 表示 法 重新 闻 述 计算 PageRank 值 的 算法 。 设 tO H PageRank 的 初始 
估计 “〈 归 一 化 使 其 长 度 为 1) 。 图 15-7 中 所 示 的 主 循环 每 次 进行 迭代 时 ， 将 当前 估计 值 与 矩 
RE MT 相 乘 ， 从 而 获得 新 的 估计 值 。 第 一 次 迭代 可 得 一 MITT ， 第 二 次 迭代 可 得 亢 2 一 
MTY, WEH. P n 次 迭代 后 可 获得 估计 值 
gz) =(MT)" g©) (15-19) 
因此 ， 如 果 
lim #%=2, (15-20) 


算法 计算 出 pageRanK 的 值 。 和 矩阵 M 的 遍历 性 保证 了 算法 是 收敛 的 。 在 马尔 可 夫 链 的 术语 
th, č 称 为 M 的 静态 分 布 (stationary distribution)。 这 个 计算 矩阵 的 主 特征 向 量 的 算法 称 
HRE (power method) (Golub 和 Van Loan, 1996), 
为 确定 收敛 速率 ， 将 初始 估计 FORMA CRAY 特征 向 量 的 线性 组 合 : 
ZO = Fy + ag Fo + agfa + +an En (15-21) 
在 第 一 次 迭代 后 ， 可 得 : 
HY = MTZ 
=M" (#, + a22 +: +an n) 
= MTZ, +a MT +- +an MTN 
=T; 十 Q2 272 +: + an ÀN EN 
E n 次 迭代 后 ， 因 为 Xz 为 位 居 和 1 之 后 的 第 二 大 特征 向 量 ， 可 得 : 
六) 二 二 十 Q2 各 入 十 …- 十 aQN 和 WEN 
<2, + A7 (az22 十 … 十 an =n) 
=£, + O09) 

由 此 可 见 ， 收 敛 速度 取决 于 MT 的 第 二 大 特征 向 量 的 值 。 值 越 小 ， 收 敛 速度 越 快 。 

对 于 PageRank、Haveliwala 和 Kamvar (2003) 证 明了 第 二 大 特征 向 量 值 为 $， 邯 为 阻 
尼 系 数 8。 如 果 8 的 值 不 太 接近 于 1， 则 收敛 速度 在 可 接受 范围 内 。 更 为 重要 的 是 ， 收 敛 速 
率 不 依赖 于 Web 图 本 身 的 特征 。 如 果 对 于 一 个 Web 图 来 说 ,算法 收敛 速度 足够 快 ， 那 么 即 
使 Web 图 随 着 时 间 不 断 变化 ， 算 法 对 于 该 图 的 收敛 速度 还 是 相当 快 的 。 

Haveliwala 和 Kamvar 同时 还 指出 PageRank 算法 的 稳定 性 也 与 6 有 关 。5 的 值 越 小 ， 
Web 图 上 的 小 变动 对 PageRank 造成 的 影响 越 小 。 当 然 ， 如 果 8 值 接近 于 0，PageRank 就 无 
法 获得 任何 关于 Web 图 的 有 用 信息 ， 因 为 几乎 在 每 一 步 都 会 产生 随机 跳 转 。 为 保证 PageR- 
ank 算法 有 好 的 稳定 性 和 收敛 性 ， 最 好 保持 传统 的 值 ， 取 9 一 0, 85。 

如 此 看 来 ， 虚 拟 访问 者 的 随机 跳 转 确定 了 PageRank 的 稳定 性 和 收敛 性 。 跳 转向 量 保 证 ， 
了 M 的 遍历 性 ， 从 而 也 就 保证 了 PageRank 算法 的 收敛 性 。 阻 尼 系 数 决定 了 算法 的 稳定 性 
和 收敛 速度 。 而 Web 图 的 结构 本 身 的 作用 并 不 是 很 大 。 

以 上 讨论 均 假 设 跳 转向 量 所 有 元 素 值 均 为 正 数 。 如 果 假 设 不 成 立 ， 跳 转向 量 中 包含 值 为 
0 的 元 素 ， 那 么 M 就 不 一 定 是 不 可 约 的 了 。 跳 转向 量 中 的 0 值 元 素 说 明 随 机 浏览 用 户 永远 
都 不 可 能 随机 跳 转 到 该 页 面 。 假 设 存在 网 页 a， 从 其 他 任何 跳 转 概率 非 零 的 网 页 都 不 能 跳 转 
到 该 网 页 。 那 么 就 意味 着 访问 者 一 旦 离开 页 面 a， 就 不 可 能 再 通过 其 他 页 面 跳 转 回 来 。 


日 更 准确 地 说 ，| 入 21 志 3， 但 对 于 任何 现实 的 Web 图 均 有 入 2 二 5。 
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如 果 假 设 访问 次 数 为 无 穷 多 ， 那 么 跳 转 概率 最 终 会 趋向 于 1。 每 次 跳 转 之 后 到 达 网 页 a 
的 概率 都 为 0。 因 此， 不 用 经 过 精确 计算 ， 我 们 就 可 以 知道 网 页 a 的 PageRank 值 为 0。 

设 多 为 跳 转 可 达 页 面 集 合 (图 15-8) 。 
BR 以 外 的 页 面 PageRank 值 均 为 0， 而 且 
在 计算 B' 中 的 网 页 的 PageRank 时 ， 这 些 
PageRank 值 为 0 的 网 页 可 忽略 不 计 。 设 M 
是 的 转移 矩阵 ，J' 为 其 跳 转 向 量 。J' 可 
能 仍 含有 值 为 0 的 元 素 , 但 是 与 这 些 零 值 
元 素 相关 的 网 页 都 可 以 通过 非 零 值 的 网 页 
跳 转 到 达 。 因 为 每 一 步 中 都 可 能 发 生 跳 转 ， 
而 B 中 的 任何 页 面 都 可 能 在 每 次 跳 转 后 到 
达 ， 因 此 M' 是 不 可 约 的 。 每 一 跳 的 概率 值 也 有 助 于 保证 M' 是 非 周 期 的 (练习 15. 5) 。 由 于 
M' 是 不 可 约 非 周期 的 ， 因 此 它 是 遍历 的 且 其 PageRank 是 收 伍 的 。 稳 定性 和 收敛 性 等 其 他 性 
质 在 M' 中 也 体现 出 来 了 。 





图 15-8 跳 转 可 达 页 面 


15.3.4 其 他 链接 分 析 方 法 : HITS 和 SALSA 


除 PageRank 以 外 ， 还 有 大 量 关于 Web 的 链接 分 析 技 术 。 其 中 有 两 种 方法 最 为 著名 ， 
分 别 是 Kleinberg 的 HITS 算法 (Kleinberg，1998，1999) 与 Lempel 和 Moran (2000) 提 
出 的 SALSA 算法 。HITS 算 法 是 在 大 约 与 PageRank 算法 同一 时 期 提出 的 。 紧 接着 就 产生 
了 SALSA 算法 ， 它 兼 有 PageRank 和 HITS 两 种 算法 的 一 些 特性 。 

HITS 潜在 的 含义 是 考虑 一 个 页 面 对 应 某 个 给 定 主 题 在 Web 中 所 扮演 的 角色 。 其 中 一 
种 称 为 权威 (authority) 网 页 ， 即 网 页 包含 大 量 该 主题 的 可 靠 信 息 。 第 二 个 是 链接 Chub) 
网 页 ， 即 网 页 聚集 了 大 量 与 该 主题 相关 的 链接 。 一 个 好 的 链接 网 页 会 指向 多 个 权威 网 页 ;一 
个 好 的 权威 网 页 也 会 被 大 量 链接 网 页 引用 。 需 要 强调 的 是 ， 这 些 都 是 理想 模型 ， 某 个 网 页 在 
某 种 情况 下 可 能 既是 权威 网 页 又 是 链接 网 页 。 

正如 人 们 推测 PageRank 算法 适用 于 整个 Web 一 样 ，Kleinberg 预言 HITS 将 会 适用 于 
小 型 Web 图 (小 型 网 络 译 者 注 )。 这 些 Web 图 可 能 是 由 在 某 个 搜索 引擎 上 执行 某 个 查 
询 得 到 的 前 几 百 个 网 页 及 其 相 邻 网 页 所 组 成 的 。 基 于 这 些 检索 到 的 页 面 ，HITS 计算 对 于 这 
个 查询 而 言 哪些 是 权威 网 页 哪些 是 链接 网 页 。 在 发 明 HITS 之 时 ， 人 们 还 不 知道 Web 搜索 
引擎 可 以 与 链接 分 析 技 术 一 并 使 用 〈Marchiori，1997)， 在 没有 搜索 引擎 明确 的 支持 下 ， 
HITS 提供 了 一 种 可 以 利用 链接 分 析 技 术 的 好 方法 。 

TAER a, HITS 计算 两 个 值 : 权威 值 a (a) 和 链接 值 h(a)。 一 个 页 面 的 权威 值 
由 指向 它 的 网 页 的 链接 值 计算 得 到 





a(a)=wa- >> h(8) (15-22) 
Bra 
一 个 页 面 的 链接 值 由 它 指向 的 网 页 的 权威 值得 到 : 
h(a)=wn- $ a(8) (15-23) 


asp 
下 面 简短 讨论 一 下 权重 w Aw, 的 意义 。 指 向 页 面 自身 的 链接 〈( 自 环 《self-loop)〉 以 及 
站 内 链接 可 以 忽略 不 计 ， 因 为 这 些 链 接 起 到 的 多 半 是 单纯 的 导航 作用 ， 而 并 非 权 威 -链接 方面 
的 作用 。 
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我 们 可 以 将 公式 (15-22) 和 公式 (15-23) 写成 矩阵 /向 量 形式 ， 设 Web 图 中 有 NN 个 页 
面 ， 定 义 说 为 权威 值 ， 克 为 链接 值 .8 令 W 为 Web 图 的 邻接 矩阵 〈adjacency matrix) ， 当 有 
链接 从 页 面 宇 指向 页 面 了 时 ， 邢 [i, 站 二 1， 香 则 W Ci. j] 二 0。 例如， 图 15-2 中 的 Web 
图 (保留 站 内 链接 ) 的 邻接 矩阵 如 下 ， 


011100 
100000 
wai foo eo? (15-24) 
1000 0 0 
00010 0 
00000 0 
采用 矩阵/ 向量 的 形式 ， 公 式 (15-22) 和 公式 (15-23) 可 写成 如 下 形式 : 
zt 人 和 h=wp Wa. (15-25) 
代 人 可 得 : | 
=wa wp WTWā 和 h = wo wh Wwth (15-26) 
eee A=W'W, HWW", BA=1/ (w. * wa), WF: 
\@=Ad H dA=HA (15-27) 


由 此 可 得 ， 权 威 向 量 站 为 矩阵 A 的 特征 向 量 ， 链 接 向 量 h 为 和 矩阵 五 的 特征 向 量 。 

iE A 和 五 在 文献 计量 学 (Lempel 和 Moran, 2000; Langville 和 Meyer, 2005) 中 有 
一 个 十 分 有 趣 的 解释 : SRE A 是 Web 图 的 共 被 引 和 矩阵 〈cor-citation matrix)， 其 中 ALi,7] 
代表 同时 指向 i 和 j 的 页 面 数 ;矩阵 H Æ Web 图 的 互 指 矩阵 (coreferehce matrix) 或 耦合 
矩阵 (coupling matrix), HP H Li, j] 表示 同时 被 i RAMA. Be A 和 日 
AREER, BORREGO HE. 

正如 PageRank 算法 一 样 ， 我 们 可 以 用 震 形 式 的 不 动 点 迭代 方法 来 计算 立 和 丈 。 令 0@ 和 


LODAIR 让 和 亡 的 初始 估计 。 第 n 次 估计 值 4 和 到» 可 用 以 下 公式 根据 前 面 的 估计 得 到 ，; 





a) WIRD /WTRY| 和 RY =Wa" /Wa | (15-28) 
正则 化 可 保证 每 个 估计 都 是 单位 长 度 ， 从 而 避免 对 特征 向 量 的 显 式 计算 。 如 果 
im am 一 了 lim AM) =h (15-29) 


连续 运用 这 些 公式 ， 将 计算 出 立 和 克 。 和 矩阵 M 的 遍历 性 保证 了 PageRank 算法 的 收敛 性 。 
在 HITS 方法 中 ， 只 要 初始 估计 有 一 个 方向 与 主 特征 向 量 的 方向 相同 ，A AH 的 对 称 性 就 
可 以 保证 HITS 方 法 是 收敛 的 〈Kleinberg，1999; Golub 和 Van Loan, 1996). 任意 元 素 值 
全 为 正 数 的 单位 向 量 都 可 满足 这 一 要 求 ， 如 ， 
FO = RO) =( 1/VN, 1/VN, +) 
但 是 很 遗憾 ， 该 算法 不 能 保证 收敛 到 唯一 值 CLangville 和 Meyer，2005) 。 基 于 不 同 的 
初始 估计 ，HITS 算法 可 能 收 伍 到 不 同 结果 〈 匈 练习 15.9). 
SALSA， 即 链接 结构 的 随机 分 析 法 〈stochastic approach for link-structure analysis)， 把 Pag- 
eRank 算法 的 随机 浏览 理论 引入 到 HITS 中 (Lempel 和 Moran，2000)。SALSA 的 提出 受 这 样 的 





O 如 果 你 不 想 详细 了 解 ， 可 以 直接 跳 到 15.3.5 节 。 
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观察 启发 : 一 小 组 高 度 互联 的 网 站 GR “RRA” 中 ， 通 过 对 成 员 赋 予 高 的 链接 值 和 
权威 值 ， 会 对 链接 值 和 权威 值 产生 不 成 比例 的 影响 。 . 

SALSA 假设 随机 浏览 用 户 会 在 链接 和 “ 回 到 上 一 页 ”链接 (backlink) 〈 即 反 向 链接 ) 
中 跳 转 。 在 奇数 步 时 用 户 从 当前 页 面 随机 选择 一 个 出 链接 进行 访问 。 在 偶数 步 时 ， 用 户 随机 
选择 一 个 从 外 部 页 面 指向 当前 页 面 的 人 链接 ， 并 对 其 进行 反 向 访问 ， 找 到 链接 源 。 随 着 访问 
步 数 的 增加 ， 奇 数 步 前 在 网 页 中 的 停留 时 间 表 示 网 页 的 链接 值 ， 偶 数 步 前 在 网 页 中 的 停留 时 
间 则 表示 网 页 的 权威 值 。 

尽管 这 里 没有 进行 具体 描述 ， 但 是 我 们 知道 SALSA 算法 也 可 以 表示 成 特征 向 量 的 形 
式 。Lempel 和 Moran (2000) 讨论 了 可 简化 SALSA 算法 执行 的 一 些 性 质 。Rafiei 和 Men- 
delzon (2000〉 打 算 把 随机 跳 转 理论 引入 到 类 SALSA 算法 中 ， 引 入 的 内 容 还 包括 在 进行 一 
次 奇数 或 偶数 步 访 问 后 ， 随 机 跳 转 的 概率 。 


15.3.5 ”其 他 静态 排名 方法 


静态 排名 方法 为 每 个 网 页 提供 了 独立 于 请 求 的 得 分 。 尽 管 静态 排名 计算 中 最 核心 的 部 分 
是 链接 分 析 ， 但 是 其 他 特征 也 有 着 不 同 的 作用 。 

在 15.3.2 节 中 讨论 链接 分 析 方 法 的 时 候 ， 我 们 提 到 用 户 的 隐 式 反馈 (implicit user 
feedback) 为 网 页 提供 了 一 些 重 要 特征 。 所 谓 “ 隐 式 ”， 就 是 指 用 户 在 忙于 其 他 事情 时 ， 不 
经 意 地 进行 了 反馈 动作 。 例 如 ， 对 Web 搜索 结果 的 点 击 反映 出 用 户 对 该 网 站 或 网 页 的 偏好 。 
如 果 排 名 靠 前 的 结果 被 用 户 跳 过 ， 那 么 意味 着 对 这 些 结果 进行 了 负面 反馈 (Joachims FA, 
2005) 。 商 用 搜索 引擎 提供 的 工具 条 可 以 跟踪 用 户 访 问 的 网 站 ， 并 将 这 些 信息 反馈 给 搜索 服 
务 〈 在 用 户 允 许 的 情况 下 ) 。 一 个 网 站 的 受 欢迎 程度 可 以 用 访问 量 来 衡量 ， 也 可 能 通过 点 击 
频率 和 用 户 停留 时 间 来 衡量 (Richardson 等 人 ，2006) 。 

网 页 本 身 的 内 容 也 可 能 对 其 静态 排名 造成 影响 。Ivory 和 Hearst (2002) 描述 了 网 页 评 
定 专家 是 如 何 采用 定量 的 方式 来 鉴定 网 页 内 容 和 结构 的 ， 以 预测 网 页 的 质量 评分 。 他 们 通过 
考虑 网 页 内 容 的 总 量 和 复杂 度 ， 网 页 布局 中 图 片 元 素 的 位 置 和 形式 ， 以 及 对 字体 和 颜色 的 选 
择 等 因素 来 进行 评定 。 

最 后 ， 也 会 考虑 URL 的 内 容 和 结构 。 简 短 的 URL 比 完 长 的 URL 更 受用 户 喜 爱 ， 特 别 
是 对 导航 查询 的 用 户 而 言 CUpstill 等 人 ，2003) 。 对 于 商业 查询 而 言 ， 域 名 为 com 的 网 站 比 
域名 为 edu 的 网 站 更 合适 ; 对 学 术 查 询 而 言 则 刚好 相反 。 

与 11.7 节 中 描述 的 类 似 ，Richardson 等 人 (2006) 采用 机 器 学 习 计算 静态 排名 。 他 们 
说 明 如 果 把 基本 PageRank 与 受 欢迎 程度 、 页 面 内 容 、URL 特征 等 因素 一 起 综合 考虑 ， 能 
比 只 使 用 基本 PageRank 获得 很 大 的 提高 。15. 3. 2 节 中 我 们 曾 讨论 过 ， 在 扩展 的 PageRank 
方法 中 怎样 用 这 些 特征 去 调整 追随 向 量 和 跳 转向 量 。 在 静态 排名 方法 中 如 何 更 好 地 利用 这 些 
特征 至 今 仍 是 值得 探讨 的 话题 。 


15.4 动态 排名 


查询 阶段 搜索 引擎 根据 那些 独立 于 查询 的 特征 一 一 如 词 频 和 邻近 度 一 一 将 每 个 网 页 的 静 
态 排 名 结合 在 一 起 ， 为 这 个 查询 产生 一 个 动态 的 排名 结果 。 这 种 应 用 于 商用 搜索 引擎 的 动态 
排名 算法 是 属于 第 三 部 分 介绍 的 理论 ， 由 于 Web 搜索 引擎 不 同 ， 这 些 算法 的 细节 也 会 有 很 
大 差异 。 此 外 ， 由 于 搜索 引 苟 服务 的 查询 和 用 户 数据 十 分 庞大 ， 这 些 算 法 也 需要 不 断 地 
发 展 。 
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尽管 本 书 的 范围 不 包括 特定 的 Web 搜索 引擎 所 采用 的 动态 排名 算法 ， 但 是 其 中 有 两 点 
还 是 值得 注意 的 。 第 一 点 是 锚 文 本 ， 它 代表 了 Web 搜索 中 特别 重要 的 一 类 排名 特征 。 锚 文 
本 通常 提供 对 所 指向 页 面 的 描述 ， 可 以 用 来 提高 检索 效果 。 第 二 点 一 一 新 颖 性 一 一 源 于 
Web 的 规模 和 结构 。 尽 管 给 定 网 站 中 的 许多 网 页 都 与 某 个 查询 相关 ， 但 相 比 于 从 同一 个 网 
站 中 返回 很 多 网 页 ， 可 能 分 别 从 多 个 网 站 中 返回 一 个 或 两 个 网 页 这 一 做 法 会 更 好 ， 因 此 也 能 
提供 更 多 不 同 的 信息 。 


15.4.1 43cm 


锚 文 本 通常 对 其 指向 的 网 页 提供 标记 或 描述 。 表 15-5 中 所 列 出 的 就 是 在 维基 百科 全 书 
网 站 内 指向 网 页 en.wikipedia.org/wiki/William_Shakespeare 的 锚 文 本 ， 且 按照 字符 串 出 现 
次 数 进行 了 排序 。 维 基 百 科 全 书 网 站 外 也 有 网 页 指向 该 页 面 ， 但 要 通过 对 整个 Web 进行 抓 
取 才 能 获得 那些 锚 文 本 。 表 中 所 示 的 是 一 些 混杂 的 文本 ， 包 括 拼 写 错 误 的 和 一 些 上 昵称 〈 如 
“the Bard”), AMEZ. T 6889 个 锚 文 本 中 有 71 个 不 同 的 字符 串 可 链接 到 该 页 面 。 然 而 ， 
这 些 锚 文本 中 有 45% LAE BBE “Shakespeare” —ial, 49 “William Shakespeare” 几 乎 是 
一 样 的 。 


表 15-5 指向 维基 百科 全 书 网 页 en.wikipedia.org/wiki/William_Shakespeare 的 锚 文 本 ， 按 照 出 现 次 数 








Shakespeare, William 
William Shakepeare 
Shakesphere 


lost play of Shakespeare 
Shakespearesque , 


Shakespearean theatre 


的 多 少 进行 排列 
锚 文 本 锚 文 本 

3123 Shakespeare 2 Will 
3008 William Shakespeare 2 Shakesperean 
343 Shakespeare’s 2 Shakespeare 
210 Shakespearean 2 Shakespearean studies 
58 William Shakespeare’s 2 Shakespeare 
52 Shakespearian 2 Bill Shakespeare. . . 
10 W. Shakespeare 1 the Bard’s 

1 

1 

1 

1 


Shakespeare's Theatre 
Bard 
the Bard 








Shakespearean plays 


在 整个 Web 上 指向 一 个 页 面 的 链接 数量 可 能 从 一 个 到 上 百 万 个 。 当 页 面 被 多 个 链接 指 
向 的 时 候 ， 错 文本 通常 是 重复 的 ， 而 且 重 复 的 销 文本 通常 是 页 面 的 精确 描述 〈 除 了 练习 
15. 12 所 述 的 情况 ) 。 拼 写 错 误 、 了 昵称 以 及 相似 的 锚 文 本 都 是 很 有 用 的 ， 因 为 即使 这 些 词汇 不 
会 出 现在 目标 网 页 中 ， 也 可 能 会 出 现在 用 户 输入 的 查询 中 。 

作为 排名 特征 的 锚 文 本 必须 与 指向 目标 页 面 关联 。 在 建立 Web 索引 以 前 ， 必 须 从 每 个 
页 面 中 提取 出 锚 文 本， 并 将 其 写成 如 下 形式 的 元 组 集合 : 

<target URL, anchor text> 
根据 URL 对 这 些 元 组 进行 排序 。 然 后 每 个 URL 的 锚 文 本 与 URL 代表 的 页 面 内 容 合并 在 一 
起 ， 构 成 一 个 索引 用 的 组 合 文档 。 

为 便于 检索 ， 销 文本 也 可 看 做 一 个 文档 域 ， 和 8. 7 节 中 所 述 的 标题 域 和 其 他 域 一 样 。 当 
计算 词 项 权重 时 ， 我 们 将 像 对 待 普通 文本 一 样 对 待 错 文 本 ， 和 否则 锚 文 本 的 大 量 重复 会 影响 词 
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频 的 计算 (Hawking 等 人 ，2004) 。 在 网 页 的 静态 排名 中 ， 锚 文本 也 在 计算 词 项 权重 时 直到 
一 定 作 用 (Robertson 等 人 ，2004) 。 在 静态 排名 靠 前 的 网 页 中 出 现 的 锚 文本 可 以 赋予 比 在 
静态 排名 靠 后 的 网 页 中 出 现 的 锚 文 本 高 的 权重 。 


15.4.2 ”新 颖 性 


由 于 Web 中 的 信息 量 大 且 种 类 繁多 ， 对 于 搜索 引擎 而 言 ， 给 用 户 提供 一 个 包含 各 种 信 
息 的 搜索 结果 集合 是 至 关 重 要 的 。 以 查询 “UPS”〉 为 例 ， 搜 索引 擎 返回 的 结果 最 好 是 一 个 
包含 快递 服务 、 电 源 以 及 大 学 等 的 混合 结果 。 有 几 种 简单 的 方法 可 以 降低 搜索 结果 的 元 余 ， 
包括 找 出 索引 中 重复 的 网 页 ， 在 检索 后 进行 过 滤 以 限制 来 自 同一 个 Web 网 站 的 网 页 数量 。 

即使 Web 中 有 很 多 重复 的 《或 近似 重复 的 ) 网 页 ， 但 检索 结果 中 通常 应 该 只 保留 其 中 
一 个 副本 。Web 中 出 现 重复 网 页 的 原因 有 很 多 。 很 多 网 站 在 URL 失效 时 就 会 返回 默认 网 
页 ， 因 此 这 些 网 站 中 所 有 的 失效 URL 就 会 造成 这 个 默认 页 面 的 多 个 重复 版 本 。 特 定 类 型 的 
网 页 内 容 通常 会 出 现在 多 个 网 站 间 。 例 如 ， 一 个 新 闻 文章 会 同时 出 现在 多 个 报纸 Web 网 站 
中 。 在 Web 让 息 抓 取 的 时 候 就 应 该 对 这 些 重复 进行 检测 和 标记 ( 见 15. 6. 3 节 )， 在 查询 阶 
段 就 使 用 静态 排名 来 选 出 最 优 的 副本 。 

一 般 来 说 ， 网 站 中 的 重复 页 面 应 该 从 索引 项 中 删除 。 然 而 ， 当 这 些 重复 页 面 出 现在 不 同 
站 点 中 时 ， 保 留 它 们 也 是 合理 的 。 多 数 商用 Web 搜索 引擎 都 将 检索 范围 限制 在 指定 的 网 站 
或 网 域 中 。 例 如 ， 如 果 查 询 中 包含 词 项 “site:wikipedia.org”， 就 把 检索 范围 限制 在 了 维基 
百科 网 内 。 保 留 在 多 个 网 站 中 重复 出 现 的 网 页 有 助 于 搜索 引擎 返回 正确 的 检索 结果 。 

增加 搜索 结果 多 样 性 的 另 一 种 方法 就 是 进行 检索 后 过 滤 。 动 态 排名 方法 出 现 后 ， 多 数 商 
用 搜索 引擎 都 通过 过 滤 检索 结果 的 方式 来 降低 宛 余 。 例如， 在 Google SOAP APP ( 现 已 不 用 ) 
的 技术 文档 中 描述 了 一 -种 简单 的 检索 后 过 滤 算法 。 在 检索 之 后 ， 可 采用 两 种 方法 过 滤 检 索 结果 ， 

D 如 果 儿 个 结果 有 完全 相同 的 标题 或 内 容 片断 ， 则 只 保留 其 中 之 一 。 

2) 只 为 一 个 Web 网 站 保留 两 个 最 好 的 检索 结果 。 

API 将 第 二 种 过 滤 方 法 称 为 “主机 密集 *。 十 分 有 趣 的 是 ， 第 一 种 过 滤 方 法 为 了 使 检索 
结果 看 起 来 appearance》 没 那么 宛 余 ， 有 可 能 将 那些 实际 上 并 不 宛 余 的 相关 结果 过 滤 
HT. 


15.5 评价 Web 搜索 


理论 上 在 Web 搜索 中 采用 传统 信息 检索 的 评价 方法 (例如 ，P@10 和 MAP) 是 可 行 
的 。 但 是 ，Web 上 可 用 资源 的 数量 引起 了 一 些 问题 。 例 如 ， 一 个 信息 查询 可 能 会 产生 成 百 
上 千 的 相关 文档 。 通 常 这 个 查询 返回 的 前 10 个 检索 结果 是 相关 的 。 这 种 情况 下 ， 传 统 的 评 
价 方 法 中 的 二 元 相关 评价 (“相关 ”/“ 不 相关 ” 可 能 就 不 够 了 ， 不 能 得 到 有 意义 的 评价 ; 相 
比 之 下 ， 分 级 相关 评价 可 能 更 加 合适 。 

如 果 分 级 相关 评价 的 值 是 有 效 的 ， 可 以 采用 像 nDCG (12.5.1 W 这 样 的 评价 方法 ， 
利用 这 些 值 对 系统 进行 评价 (Richardson 等 人 ，2006)。 例 如 ，Najork (2007) 在 Web 搜索 
评价 中 使 用 nDCG， 对 来 自 Windows Live 搜索 引擎 的 超过 28 000 个 查询 结果 进行 了 评价 。 
从 中 获得 了 大 约 50 万 个 人 工 判定 结果 。 这 些 判 定 都 采用 6 级 分 级 制度 进行 分 级 如 下 : 精确、 
很 好 、 较 好 、 一 般 、 差 、 极 差 。 











© code. google. com/apis/soapsearch/reference. html (2009 年 12 月 23 日 访问 ) 
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Web 的 特性 也 给 评价 带 来 了 新 的 影响 。 正 如 15. 2 节 中 提 到 的 ， 很 多 Web 查询 都 是 导航 
式 的 。 对 于 这 类 查询 而 言 ， 只 有 一 个 特定 的 网 页 是 相关 的 。15. 5. 1 节 中 将 介绍 用 于 这 类 查 
询 的 评价 方法 。 此 外 ， 商 用 Web 搜索 服务 处 理 的 查询 和 用 户 数量 也 为 根据 用 户 行为 来 进行 
相关 性 评判 提供 了 回 机 ， 可 用 于 扩展 或 替代 人 工 评价 。15. 5. 2 闻 将 从 评价 角度 出 发 ， 概要 
介绍 用 于 理解 点 击 及 类 似 的 用 户 行为 的 相关 技术 。 


15.5.1 指定 页 面 发 现 


指定 页 面 发 现 (named page finding) 任务 是 一 种 Web 评价 任务 ， 该 任务 假设 用 户 要 检 
索 某 个 她 以 前 见 过 的 或 听 说 过 的 网 页 。 用 户 输 入 一 个 描述 网 页 内 容 的 查询 ， 然 后 希望 这 个 网 
页 能 出 现在 搜索 结果 的 第 一 位 (或 只 返回 这 个 页 面 )。 例 如 ， 查 询 ““Apollo”,“11”,，“mis- 
sion”) 描述 有 关 第 一 次 登 月 的 美国 宇航 局 (NASA 的 历史 网 页 。 尽 管 其 他 网 页 也 可 能 和 
此 主题 相关 ， 但 是 只 有 这 个 网 页 被 认为 是 正确 的 检索 结果 。2002 一 2004 年 间 的 TREC Web 
专题 以 及 2005 年 和 2006 年 TREC TB 专题 都 包括 了 指定 页 面 发 现任 务 (Hawking 和 Cra- 
swell, 2001; Craswell 和 Hawking, 2004; Clarke 等 人 ，2005; Biittcher 等 人 ，2006) 。 

指定 页 面 发 现 背 后 的 前 提 代表 了 导航 查询 的 一 个 重要 子 集 。 尽 管 如 此 ， 很 多 导航 查询 
Gu (“UPS”) 更 倾向 于 搜索 某 些 具 体 的 网 站 ， 而 非 具 体 的 内 容 。 为 解决 这 类 问题 ， 指 定 页 
面 发 现 的 应 用 范围 应 该 扩展 到 “主页 发 现 ” 查 询 (Craswell 和 Hawking, 2004), 

在 2006 年 的 TB 专题 检索 中 ， 参 与 者 创建 了 181 个 主题 。 对 于 每 个 主题 ， 创 建 者 都 从 
GOV2 文档 集中 找 出 了 对 应 的 答案 网 页 。 每 次 提交 都 包含 超过 1000 个 搜索 结果 。 在 评价 运 
行 结果 时 ， 使 用 Bernstein 和 Zobel (2005) 的 DECO 算法 将 近似 重复 网 页 检测 出 来 ， 该 算 
法 是 15. 6. 3 节 中 提 到 的 近似 重复 网 页 检测 算法 的 变形 。 所 有 与 正确 网 页 近似 的 网 页 也 可 看 
做 是 正确 的 。 这 里 有 3 个 指标 可 用 于 评价 : 

。 MRR, 第 一 个 正确 结果 的 平均 排名 倒数 (mean reciprocal rank), 

。 % 前 10 名 : 正确 结果 在 检索 结果 排名 前 10 的 查询 占 所 有 查询 的 百分比 。 

。 FRA. 在 检索 结果 排名 前 1000 的 网 页 中 都 没有 出 现 正确 结果 的 查询 占 所 有 查询 
的 百分比 。 

对 于 给 定 主题 ， 排 名 倒数 是 指正 确 网 页 第 一 次 出 现 位 置 〈 排 名) 的 倒数 。 如 果 排 第 1, 
则 排名 倒数 为 1， 如 果 排 第 5， 则 排名 倒数 就 是 1/5。 如 果 正 确 网 页 在 检索 结果 列表 中 没有 
出 现 ， 则 它 的 排名 倒数 可 表示 为 1/ce 二 0。 平均 排 名 倒数 就 是 所 有 主题 检索 结果 排名 倒数 
的 平均 值 。 

Biittcher 等 人 〈2006) 提供 了 全 部 的 检索 结果 。 从 第 三 部 分 中 选 出 几 个 信息 检索 方法 ， 
应 用 于 指定 页 面 发 现 ， 表 15-6 列 出 这 些 结 果 。 为 了 评价 这 些 任 务 ， 改 用 BM25F 替代 
BM25。 为 便于 比较 ， 表 中 还 列 出 了 该 检索 会 议 中 最 好 的 检索 结果 (Metzler A, 2006). 
该 检索 方法 包含 了 大 量 的 针对 Web 的 技术 ， 如 链接 分 析 (静态 排名 〉 和 锚 文 本 。 第 三 部 分 
中 的 标准 检索 方法 和 Metzler 的 检索 方法 的 差异 说 明了 这 些 技术 对 导航 查询 任务 的 重要 性 。 


表 15-6 第 三 部 分 的 信息 检索 方法 用 于 指定 页 面 发 现 的 结果 。 为 便于 比较 ， 其 中 包含 了 TREC 
2006 {Metzler 等 人 ，2006) 中 最 好 的 检索 结果 
方法 MRR % 前 10 RRB 
BM25 (Ch. 8) 0. 348 50. 8 16.0 
BM25F (Ch. 8) 0. 421 58.6 16.6 
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( 续 ) 
方法 MRR % 前 10 多 未 找到 
LMD (Ch. 9) 0. 298 48.1 15.5 
DFR (Ch. 9) 0. 306 45.9 19.9 


Metzler A. (2006) 0. 512 69.6 13.8 





15.5.2 MARAKI 


隐 式 反馈 是 指 在 用 户 与 搜索 引擎 进行 交互 时 附带 获得 的 反馈 。 点 击 就 是 这 种 隐 式 反馈 中 
重要 且 有 效 的 一 种 。 每 当 用 户 输入 一 个 查询 并 点 击 其 中 一 个 检索 结果 的 链接 时 ， 这 个 点 击 的 
记录 就 会 通过 浏览 器 传送 给 搜索 引擎 ， 搜 索引 擎 将 其 写 人 人 日志， 以便 将 来 分 析 。 

对 给 定 查询 ， 将 很 多 用 户 的 点 击 画 成 一 条 点 击 曲线 〈clickthrough curve) ， 以 反映 用 户 
对 此 查询 的 点 击 模式 。 图 15-5 给 出 一 个 例子 ， 分 别 是 导航 查询 和 信息 查询 的 典型 点 击 曲线 。 
在 这 两 条 曲线 中 ， 点 击 数 都 随 着 排名 的 降低 而 减少 。 如 果 将 点 击 视 为 是 部 分 用 户 的 正 向 偏 
好 ， 这 些 曲线 的 形状 正如 我 们 所 期 望 的 , 排名 高 的 结果 更 像 是 相关 的 ， 被 点 击 的 次 数 也 越 
多 。 就 算 接 下 来 的 结果 也 具有 同样 的 相关 性 ， 但 我 们 还 是 希望 排名 越 高 的 结果 可 以 被 点 击 的 
次 数 越 多 。 如 果 用 户 顺 序 地 查看 结果 ， 那 么 排名 高 的 页 面 会 比 排名 低 的 先 被 查看 。 这 被 称 为 
用 户 行为 中 的 信任 偏见 (trust bias) (Joachims A, 2005): 用 户 期 待 搜索 引擎 先 返 回 最 
好 的 检索 结果 ， 用 户 会 先 点 击 排名 高 的 网 页 ， 即 使 其 中 不 一 定 包 含 他 想 要 的 信息 。 

图 15-9 展示 了 第 三 种 点 击 曲 
线 ， 其 来 源 与 前 两 种 曲线 一 样 
(Clarke 等 人 ，2007)。 该 图 中 的 
曲线 是 针对 信息 /交易 查询 
< “kids”, “online”, “games”) 的 
点 击 而 绘制 的 。 图 中 出 现 了 一 定 
数量 的 点 击 逆转 Cclickthrough 
inversion) ， 即 有 个 别 的 网 页 获得 
的 点 击 数 要 比 排名 紧 跟 其 后 的 网 
站 还 要 少 〈 如 ， 排 名 第 2 和 第 3 
的 两 个 网 页 ， 以 及 排名 第 7 和 第 





结果 位 置 


8 的 两 个 网 页 ) 。 图 15-9 查询 〈“kids”，“online”，“games”〉 的 点 击 曲线 。 点 
点 击 送 转 可 能 预示 着 存在 着 击 逆转 (例如 ， 排 名 第 2 和 第 3 的 网 页 ) 表示 搜索 结 
次 优 排名 ， 即 相关 性 低 的 文档 比 ”” 果 存 在 次 人 排名 


相关 性 高 的 文档 排名 靠 前 。 然 而 ， 这 种 现象 的 出 现 也 许 是 因为 与 相关 性 无 关 的 因素 。 例 如 ， 
排名 高 的 结果 的 标题 及 片段 内 容 或 许 没 有 准确 地 描述 用 户 希 望 的 网 页 (Clarke 等 人 ，2007; 
Dupret 等 人 ，2007) 。 如 果 在 阅读 完 网 页 标题 和 片段 之 后 ， 用 户 仍 不 明白 为 何 该 结果 是 相关 
的 ， 那 么 用 户 就 会 忽略 这 个 结果 并 转 到 其 他 结果 。 尽 管 如 此 ， 当 标题 和 片段 能 够 准确 描述 结 
果 时 ， 点 击 逆转 就 可 以 解释 为 用 户 偏好 于 排名 靠 后 的 结果 (Joachims 和 Radlinski, 2007). 
查询 丢弃 (abandonment) 一 一 输入 查询 后 并 不 点 击 任何 检索 结果 一 一 表示 用 户 对 实质 
性 的 内 容 并 不 满意 Joachims 和 Radlinski，2007)。 如 果 大 量 用 户 都 丢弃 给 定 的 查询 ， 这 种 
行为 就 意味 着 排名 高 的 检索 结果 全 都 是 不 相关 的 。 某 些 情况 下 ， 用 户 添加 、 修 改 或 更 正 了 查 
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询 词 项 后 发 生 了 查询 丢弃 。 有 时 搜索 服务 可 以 过 浏览 器 cookies 或 其 他 类 似 的 机 制 来 跟踪 到 
这 样 的 查询 修改 .2 

通过 检查 大 量 用 户 的 查询 修改 ， 就 可 以 进行 拼写 错误 纠正 、 扩 展 词 项 建议 和 识别 缩写 
(Cucerzan 和 Brill, 2004; Jones A, 2006). fl du, ALP A € H (“ brittany”, 
“spears”) ， 可 能 会 被 更 正 为 〈“britney”, “spears”) O EE WERU STERA AH- A 
始 查询 相关 。 例 如 ，Joachims 和 Radlinski (2007) 指出 用 户 经 常 输入 查询 〈“oed”， ， 然 后 
被 修改 为 〈“oxford”, “english”,“dictionary”》， 之 后 用 户 会 点 击 返回 的 搜索 结果 的 第 一 项 。 

捕捉 其 他 形式 的 用 户 隐 式 反馈 需要 用 户 的 合作 ， 这 需要 安装 浏览 器 工具 条 或 类 似 应 用 程 
序 ， 然 后 显 式 地 同意 进行 这 种 捕 提 (Kellar 等 人 ，2007) 。 页 面 驻 留 时 间 (dwell time) 就 是 
通过 此 种 方法 获得 的 隐 式 反馈 之 一 。 如 果 用 户 点 击 一 个 检索 结果 后 又 立即 返回 到 搜索 结果 页 
面 ， 则 可 能 说 明 该 结果 是 不 相关 的 。 

总 而 言 之 ， 这 些 隐 式 反馈 及 其 他 的 反馈 方式 有 助 于 Web 搜索 结果 的 质量 取得 实质 性 的 
提升 ， 因 为 这 些 反馈 便于 我 们 进行 评价 〈Agichtein 等 人 ，2006b)， 同 时 也 提供 更 多 的 排名 
特征 (Agichtein 等 人 ，2006a) 。 


15.6 Web 爬虫 


PEKEE DREM TAARE Web， 不 过 规模 要 大 得 多 。 就 像 用 户 跟 着 链接 访 
问 一 个 又 一 个 的 页 面 一 样 ， 疏 虫 依 次 下 载 页 面 ， 从 中 提取 链接 ， 然 后 跟随 这 些 新 链接 继续 下 
B. Web 疏 虫 技术 每 次 发 展 时 遇 到 的 挑战 都 与 网 络 规模 和 爬行 速度 有 关 ， 这 是 必然 会 发 生 的 。 

假设 我 们 的 目标 是 在 一 周 时 间 内 下 载 80 亿 个 网 页 快照 〈 商 用 搜索 引擎 规定 的 标准 的 较 
小 的 网 页 快照 ) 。 假 设 网 页 的 平均 大 小 为 64 KB， 则 我 们 必须 以 一 个 稳定 的 速率 ， 

64 KB/page - 8 giga-pages/week = 512 TB/week 
= 888 MB/second 
FEF BBE AABN MIE KATREK, PS AT Tt A AS A FRA. ER aS 
Pea Si XY FES A BYP TPR BY oe NT LS EL E FRAME, ERRE E A 
身 的 工作 流程 ， 以 便 避 免 重复 下 载 页 面 以 及 对 下 载 失败 的 页 面 进 行 重新 下 载 。 

人 疏 虫 还 要 注意 保证 其 工作 不 会 干扰 网 站 的 正常 运行 。 同 步 下 载 需要 在 整个 Web 范围 内 
进行 ， 在 访问 独立 网 站 时 还 要 注意 时 间 间 隔 ， 以 避免 该 网 站 超载 。 同 时 网 络 拒 虫 需要 尊重 其 
访问 的 网 站 ， 按 照 网 站 的 规定 进行 操作 ， 避 免 抓 取 某 些 特 定 的 页 面 的 链接 。 

许多 网 页 都 定期 进行 更 新 。 因 此 一 段 时 间 后 疏 虫 需要 重新 抓 取 这 些 网 页 ， 否 则 搜索 引擎 
的 索引 就 会 是 过 期 的 。 为 避免 这 一 情况 ， 我 们 也 许 每 周 都 要 对 整个 Web 重新 抓 取 ， 但 是 这 
种 方法 浪费 了 大 量 资源 ， 而 且 也 不 符合 Web 搜索 的 实际 需求 。 包 含 一 些 “ 受 欢迎 的 ”或 
“重要 的 ”信息 的 网 页 可 能 会 定期 更 新 ， 因 此 需要 更 频繁 的 重新 抓 取 ， 每 小 时 或 每 天 一 次 。 
其 他 很 少 更 新 或 包含 极 少 有 价值 信息 的 网 页 不 需要 频繁 的 重 访问 ， 每 周一 次 或 每 个 月 一 次 就 
足够 了 。 

为 管理 抓 取 和 重 抓 取 的 顺序 和 频率 ， 疏 虫 需要 为 可 见 URL 维护 一 个 优先 级 队列 。 优 先 
级 队列 中 URL 的 排名 应 该 可 以 反映 出 网 页 的 多 种 指标 ， 包 括 它们 的 相关 重要 性 和 更 新 频率 。 
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15.6.1 MERAH 


ARR EE A a BP, RA URL (en. wikipedia. org/wiki/ William _ 
Shakespeare)， 来 认识 疏 虫 工作 的 每 一 个 步骤 和 它 的 组 成 部 分 。 跟 踪 一 个 URL 可 使 我 们 的 
讲解 更 加 简单 易 懂 ， 但 需要 强调 的 是 ， 为 了 保证 Web 搜索 引擎 抓 取 速 度 ， 这 些 步 又 需要 同 
时 对 大 量 的 URL 进行 。 

图 15-10 简单 画 出 了 仆 忠 的 处 理 步骤 和 组 成 部 分 。 当 从 优先 级 队列 顶端 移出 一 个 URL 
时 ， 抓 取 过 程 开 始 ， 当 该 URL 与 其 他 链接 一 同 从 某 个 被 访问 页 面 中 又 回 到 优先 级 队列 时 ， 
抓 取 过 程 结 束 。 尽 管 各 个 和 朴 虫 的 具体 实现 细节 不 同 ， 但 是 所 有 的 爬虫 都 包含 这 些 工 作 步 又， 
只 是 形式 不 同 而 已 。 例 如 ， 使 用 一 个 线程 对 一 个 URL 执行 所 有 的 步骤 ， 然 后 成 千 上 万 个 线 
程 并 发 工作 ; MA, URL 被 分 成 不 同 批 来 处 理 ， 每 批 中 的 URL 同时 执行 每 一 步 ， 执 行 结束 
才能 进行 下 一 步 。 





URL 


1< 一 > 域名 解释 


URL/P 地 址 
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| URL/IP 地 址 
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优先 级 队列 
Æ 15-10 MERKAR 


正如 它 支持 的 搜索 引擎 那样 (14. 1 节 )， 大 规模 Web 爬虫 必须 在 多 台 机 器 上 进行 分 布 
式 处 理 以 满足 所 需 的 下 载 速率 。 通 过 为 每 台 机 器 分 配 URL 子 集 可 以 达到 分 布 式 处 理 的 目 
的 ， 本 质 上 讲 就 是 每 台 机 器 负责 一 部 分 Web。 构 造 这 些 子 集 的 依据 可 以 是 主机 名 、IP 地 址 
或 者 其 他 因素 (Chung 和 Clarke，2002) 。 例 如 ， 我 们 可 能 指定 某 台 机 器 负责 来 自 某 个 特定 
主机 的 网 页 。 优 先 级 队列 则 应 集中 到 一 台 机 器 上 ， 以 便于 把 URL 分 配给 其 他 机 器 抓 取 ， 或 
者 每 台 机 器 为 其 分 配 到 的 URL 子 集 单独 维护 一 个 优先 级 队列 。 

1. 域名 解析 

对 URL 的 处 理 开始 于 将 其 主机 名 翻译 成 32 位 的 IP 地 址 。 对 于 主机 en. wikipedia. org, 
对 应 的 IP 地 址 为 208. 80. 152.2 (撰写 本 书 时 的 IP)。 这 个 地 址 将 用 于 获取 主机 上 的 网 页 。 
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由 于 该 项 工作 是 为 了 浏览 器 及 其 他 网 络 应 用 程序 而 完成 的 ， 因 此 这 种 解析 是 受 域名 系统 
(Domain Name System, DNS) 影响 的 ， 这 是 一 种 标准 的 Internet 服务 ， 通 过 分 布 在 Inter- 
net 中 的 分 布 式 层 次 化 的 服务 器 和 缓存 来 实现 。 虽 然 DNS 的 速度 对 于 多 数 应 用 来 讲 是 可 接受 
的 ， 但 却 远 远 不 能 满足 Web 假 虫 的 要 求 ， 因 为 人 朴 虫 要 求 每 秒 钟 获得 上 千 个 域名 解析 。 为 满 
足 这 一 解析 速度 ， 疏 虫 必须 有 自己 的 解析 缓存 。 该 缓存 需要 管理 主机 名 和 IP 地 址 之 间 的 映 
射 ， 并 在 它们 过 期 时 将 其 标记 为 失效 或 对 其 刷新 。 虽 然 定 制 DNS 缓存 只 是 疏 虫 的 一 个 很 小 
的 组 成 部 分 ， 但 对 该 缓存 的 需求 可 以 反映 出 疏 虫 在 高 速 工作 时 是 会 遇 到 问题 的 。 

2. 机 器 人 排除 协议 

获得 IP 地 址 后 ， 疏 虫 还 必须 检查 所 访问 的 网 页 是 和 否 得 到 所 属 网 站 的 许可 。 这 种 许可 就 
是 一 个 非 官方 〈 但 已 被 大 家 所 接受 ) 的 协议 ， 即 机 器 人 排除 协议 〈robots exclusion proto- 
col) 〈 非 正式 时 也 叫做 “robots.txt 协议 ”) 。 对 一 个 给 定 网 站 ， 这 个 访问 许可 协议 可 以 通过 
在 主机 名 后 添加 路 径 “/robots.txt” 获 得 ， 并 由 此 下 载 对 应 的 页 面 。 

在 我 们 的 例子 中 ，URL 为 ht- 轨 
tp: //en, wikipedia. org/robots. txt, ‘ robots.txt for http://www.wikipedia.org/ and friends 
图 15-11 中 展示 了 这 个 页 面 的 一 小 部 | … 
分 内 容 。 该 网 页 由 一 系列 的 注释 和 操 4 Sorry, wget in its recursive mode is a frequent problem 
作 指 令 构成 。“User-agent” 指 令 列 出 |: ， a 
多 许 在 这 个 网 站 内 进行 操作 的 息 虫 的 | pianon 7 
名 字 ， 其 中 “x ”表明 该 指令 适用 于 
rae, Bla, “Disallow” HOR 4 Friendly, low-speed bots are volcom viewing article pages, but not 
示 拒 绝 访问 该 前 缀 的 所 有 网 页 。 下 载 | mee 
任何 带 有 这 样 前 级 的 网 页 都 是 不 允许 | ptsalgs fetes /spectat:tandon 
-的 .图 15-11 中 的 示例 表示 拒绝 wget Disallow: /wiki/Special:Search 
NORA RADIA], FF BER AL Hh ME 
虫 禁止 访问 随机 文章 链接 和 搜索 链接 ， 

因为 这 两 种 链接 都 是 动态 生成 内 容 的 。 有 关机 器 人 排除 协议 的 相关 细节 请 参见 网 址 Web Ro- 
bots site® 。 

Web 爬虫 通常 对 其 访问 过 的 每 个 主机 的 robots. txt 进行 缓存 ， 以 避免 对 来 自 该 主机 的 
URL 进行 操作 时 造成 重复 下 载 。 这 些 缓存 信息 会 很 快 过 期 ， 可 能 几 小 时 或 几 天 。 

当 扑 虫 被 拒绝 访问 时 ，URL 将 被 送 回 优先 级 队列 中 ， 并 标记 这 个 下 载 是 不 允许 的 。 过 
段 时 间 抱 忠 可 能 会 重 试 这 个 URL， 看 是 否 可 以 访问 ; 或 者 ， 这 个 URL 被 永久 标记 为 拒绝 访 

间 的 ， 再 也 不 会 进行 重 试 ， 并 将 其 作为 一 个 占 位 符 维护 起 来 ， 以 防 息 忠 晶 后 对 其 再 访问 。 

3. 下 载 

确认 下 载 是 被 允许 的 以 后 ， 疏 虫 通过 HTTP 协议 对 Web 网 站 进行 访问 并 下 载 网 页 。 网 
页 格式 可 能 是 HTML (如 图 8-1 所 示 ) 或 其 他 格式 ， 如 PDF。 相 关 网 页 可 能 同时 被 访问 和 
下 载 ， 或 者 将 其 预 留 给 将 来 的 抓 取 循 环 。 例 如 ， 如 果 网 页 定义 了 一 个 框架 集 ， 那 么 集合 中 的 
所 有 网 页 就 可 能 被 同时 下 载 。 如 果 支 持 图 片 搜索 服务 ， 也 会 对 图 片 进行 下 载 。 

在 下 载 期 间 ， 疏 虫 也 许 还 要 解决 重 定向 的 问题 ， 这 表明 网 页 的 实际 内 容 在 其 他 地 方 。 重 
定向 会 大 大 增加 下 载 处 理 的 复杂 度 ， 部 分 是 因为 重 定向 有 多 种 实现 方式 。 在 HTTP 协议 层 ， 














图 15-11 摘自 robots. txt 的 内 容 
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有 多 种 Web 服务 器 响应 消息 可 以 指示 网 页 已 被 永久 地 或 临时 地 移 至 其 他 位 置 了 。 重 定向 也 
可 通过 HTML 网 页 中 的 标签 来 说 明 。 最 后 ， 跟 HTML 页 面 一 同 加 载 的 JavaScript 也 在 执行 
时 引起 重 定向 。 

例如 ， 维 基 百 科 网 站 采用 HTTP 协议 “301 Moved Permanently” 来 将 en. wikipedia. 
org/wiki/william _shakespeare 重 定向 到 en.wikipedia.org/wiki/William_Shakespeare。 在 维 
基 百 科 中 重 定 向 到 正确 的 拼写 和 大 小 写 上 也 是 很 常见 的 。 在 进行 网 站 的 重新 设计 或 重新 构建 
时 ， 其 他 网 站 也 会 利用 HTTP 重 定向 来 使 得 旧 的 URL 可 以 继续 使 用 。 

使 用 JavaScript 而 产生 的 重 定向 为 Web 扑 虫 带 来 的 麻烦 最 大 ， 因 为 息 忠 要 通过 执行 
JavaScript 后 才能 知道 重 定向 的 目标 。 此 外 ， 根 据 不 同 的 因素 (例如 用 户 浏览 器 类 型 等 )， 
JavaScript 还 有 可 能 重 定向 到 不 同 的 网 页 。 为 考虑 到 全 部 的 可 能 性 ， 理 论 上 要 求 息 虫 在 不 同 
配置 环境 下 不 停 地 重复 执行 这 些 JavaScript， 直 到 找 出 所 有 的 重 定 向 目标 为 止 。 

BST PARA, SPR. AEA FR IAG JavaScript 是 不 太 可 能 
HK. AR, MRA UREA RRM, REEVES Ae BE 
HHE. BTM. We Rw we JavaScript 重 定向 ， 那 么 剩 下 的 有 用 信息 就 没 多 少 了 ， 
甚至 可 能 完全 没有 ， 这 表明 执行 JavaScript 的 重 定向 是 必须 的 。 

4. 后 续 处 理 

下 载 完 成 后 ， 息 虫 将 页 面 存档 以 便 搜索 引擎 进行 索引 。 在 存档 中 可 能 还 保留 着 这 些 页 面 
的 旧 副 本 ， 以 使 候 虫 估计 这 些 网 页 的 更 新 疗 期 和 变化 的 类 型 。 如 果 下 载 失 败 ， 可 能 由 于 网 站 
暂时 无 法 访问 ， 这 时 还 是 需要 索引 旧 的 副本 。 下 载 失 败 后 ，URL 可 能 会 返回 到 优先 级 队列 
并 在 一 段 时 间 后 重 试 。 如 果 几 天 内 的 若干 次 下 载重 试 都 失败 ， 那 么 该 页 面 的 旧 副 本 也 将 被 标 
记 为 过 期 ， 并 将 该 页 面 从 索引 中 移 除 。 

此 外 ， 在 存档 过 程 中 ， 为 提取 URIL， 网 页 会 被 进行 分 析 或 分 解 (scrape)。 正 如 浏览 器 
一 样 ， 疏 虫 通过 解析 HTML 来 定位 锚 标 签 及 其 他 包含 链接 的 元 素 。 索 引 要 用 到 的 锚 文 本 和 
其 他 信息 也 同时 被 提取 出 来 ， 然 后 进行 存档 以 方便 搜索 引擎 进行 操作 。 在 这 次 分 析 中 ， 与 下 
载 页 面 重复 〈 或 近似 重复 ) 的 页 面 也 会 被 检测 出 来 Col 15. 6. 3 节 ) 。 

在 后 续 处 理 过 程 中 ， 候 虫 要 遵守 网 站 的 要 求 ， 不 索引 某 个 页 面 或 跟随 某 个 链接 。 如 果 
标签 

<meta name = "robots" content = "noindex"> l 
出 现在 页 面 头 部 ( 《header》 译 者 注 ) ， 就 表示 搜索 引擎 不 得 索引 该 网 页 。 如 果 在 锚 标签 
中 出 现 “rel 王 nofollow” 属 性 ， 就 表示 疏 虫 要 忽略 该 链接 。 例 如 ， 在 写 阶段 ， 下 面 的 外 部 链 
接 出 现在 维基 百科 里 有 关 薄 士 比 亚 的 网 页 中 : 


<a href = "http: //www. opensourceshakespeare. org" rel = "nofollow"> 
Open Source Shakespeare 
</a> 


只 有 在 其 他 地 方 发 现 该 页 的 链接 时 ， 网 络 候 虫 才能 对 其 进行 抓 取 ， 而 且 这 个 链接 不 对 排 
名 产生 任何 影响 。 像 博客 或 维基 百科 这 样 的 网 站 都 允许 用 户 创建 外 部 链接 ， 而 在 用 户 创建 这 
些 链接 时 ， 网 站 会 自动 给 这 些 外 部 链接 添加 “rel 王 nofollow”。 这 一 策略 可 有 效 阻止 创建 不 
合适 的 链接 ， 这 种 链接 只 以 增加 目标 网 页 的 PageRank 值 为 目标 。 通 过 添加 “rel 一 nofol- 
low”， 用 户 产生 这 样 的 垃圾 链接 是 得 不 到 什么 好 处 的 。 

由 于 执行 JavaScript 是 在 下 载 阶 段 完 成 的 ， 所 以 在 后 续 处 理 阶段 会 造成 问题 。 当 执行 该 
JavaScript 后 ， 它 可 能 会 以 新 的 内 容 和 链接 完全 重 写 该 网 页 。 如 果 该 执行 操作 失败 ， 爬 虫 可 
能 会 采取 启发 式 的 方法 去 提取 URL 和 其 他 信息 ， 但 这 不 能 保证 提取 成 功 。 
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5. 优先 级 队列 

在 后 续 处 理 中 提取 出 来 的 URL 会 插入 到 优先 队列 中 。 如 果 队 列 中 已 有 该 URL， 后 续 处 
理 中 抓 取 到 的 信息 可 能 会 改变 它 的 存储 位 置 。 

实现 这 个 优先 级 队列 是 一 个 难题 。 假 设 URL 的 平均 长 度 为 64 字 节 ,一 个 包含 80 亿 个 
网 页 的 优先 级 队列 就 需要 将 近 0. 5 TB 的 空间 来 存储 URL 〈 不 考虑 进行 压缩 )。 这 些 存储 需 
求 ， 再 加 上 每 秒 数 以 百 万 计 的 更 新 需求 ， 就 限制 了 可 用 于 管理 优先 级 队列 的 策略 。 在 
15. 6. 2 节 中 将 讨论 这 些 管理 策略 ， 并 忽略 实现 问题 。 然 而 ， 开 发 一 个 实用 的 候 忠 时 ， 这 些 
实现 问题 是 不 能 忽略 的 。 


15.6.2 WEAF 


假设 我 们 第 一 次 对 Web 中 的 内 容 进 行 抓 取 ， 目 的 是 抓 取 并 维护 数 十 亿 网 页 的 快照 。 我 
们 对 Web 中 的 网 站 和 网 页 一 无 所 知 ， 这 将 留待 我 们 对 其 进行 发 据 。 一 开始 ， 我 们 可 能 先 建 
立 一 个 小 的 种 子 集 (seed set) ， 其 中 收录 一 些 众所周知 的 主要 门户 网 、 零 售 网 和 新 闻 网 的 
URL。 可 以 用 来 自 ODPe 或 其 他 Web 目录 的 网 页 链接 建立 一 个 种 子 集 。 如 果 我 们 采用 广度 
优先 的 原则 ， 那 我 们 将 在 抓 取 早期 得 到 很 多 高 质量 的 网 页 (Najork 和 Wiener, 2001). 

随 着 抓 取 工作 的 不 断 进行 ， 我 们 对 Web 的 了 解 也 逐渐 增多 。 从 某 种 程度 上 讲 ， 特 别 是 
爬虫 在 为 一 个 实际 的 搜索 引擎 服务 时 ， 重 新 访问 以 前 的 网 页 与 候 取 新 的 URL 是 一 样 重要 
的 。 否 则 搜索 引擎 的 索引 就 会 过 期 。 更 进一步 讲 ， 随 着 候 虫 不 断 地 扩展 和 更 新 Web 的 快照 ， 
抓 取 过 程 是 增 量 式 的 (incrementally) 。 随 着 访问 和 重新 访问 网 页 ， 疏 虫 发 现 新 的 URL， 并 
剔除 不 用 的 网 页 。 

有 息 忠 的 活动 也 取决 于 它 的 刷新 策略 (refresh policy) (Olston 和 Pandey, 2008; Pandey 
和 Olston，2008; Cho 和 Garcia-Molina, 2000, 2003; Wolf 等 人 ，2002; Edwards 等 人 ， 
2001) 。 该 策略 包含 两 个 方面 : (1) 网 页 变化 的 频率 和 性 质 ; D 相 比 于 抓 取 新 的 URL 所 
带 来 的 影响 ， 这 些 网 页 的 变化 对 搜索 结果 所 造成 的 影响 。 最 简单 的 刷新 策略 就 是 定期 对 全 部 
网 页 进行 重新 访问 ， 每 X 星期 进行 一 次 ， 同 时 按照 广度 优先 策略 继续 息 取 新 的 URL。 尽 管 这 
种 策略 适用 于 不 频繁 更 新 的 网 页 ， 但 是 对 那些 更 新 频繁 且 影 响 较 大 的 网 页 (如 www. cnn. 
com) ， 应 该 进行 更 频繁 的 重 访 问 。 此 外 ， 网 络 疏 虫 应 该 优先 抓 取 那些 可 能 对 搜索 结果 影响 较 大 
的 新 的 URL。 例 如 ， 通 过 处 理 已 有 查询 日 志和 分 析 用 户 行为 《如 点 击 数据 ) 来 估计 这 种 可 能 。 

Web 在 持续 改变 中 。Ntoulas A (2004) 在 一 年 内 跟踪 了 154 个 网 站 的 变化 ， 并 得 出 
每 周 新 页 面 出 现 率 约 为 8%， 新 链接 的 出 现 率 为 25 多 。 删 除 率 也 很 高 。 一 年 以 后 ， 仅 有 
20 包 的 初始 网 页 仍 在 沿用。 然而， 一 旦 建立 ， 多 数 网 页 在 删除 前 的 变化 是 很 小 的 。 即 使 过 了 
一 年 ， 不 到 一 半 的 网 页 在 删除 前 改变 不 超过 5%， 这 是 使 用 TF-IDF 进行 评价 基准 得 到 的 结 
果 。 当 这 些 网 页 确实 发 生 改变 时 ，Cho 和 Garcia-Molina (2003) 证 明了 这 些 网 页 的 变化 频率 可 
用 泊 松 分 布 来 描述 。 因 此 ， 如 果 我 们 知道 一 个 网 页 的 历史 ， 就 可 以 预言 它 将 来 的 变化 频率 。 

即使 一 个 网 页 频繁 地 被 更 新 ， 重 访 率 还 是 取决 于 网 页 性 质 的 变化 。Olston 和 Pandey (2008) 
发 现 网 页 中 的 不 同 部 分 的 更 新 特点 也 不 同 ， 而 且 在 对 该 页 面 建立 刷新 策略 时 就 应 考虑 这 些 不 同 
特点 。 网 页 的 某 些 部 分 可 能 保持 静态 ， 而 其 他 部 分 则 显示 出 波动 行为 〈churning behavior). Bi) 
如 ， 网 页 中 的 广告 在 每 次 访问 时 都 会 变化 ， 或 网 页 中 的 一 些 内 容 是 每 天 变化 的 ， 如 “今日 名 
言 >， 其 他 部 分 则 保持 不 变 。 如 博客 或 论坛 这 些 网 站 会 出 现 滚 动 行为 〈scrolling behavior), ， 新 的 
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内 容 出 现 后 会 把 旧 的 内 容 推 向 页 面 的 后 端 。 有 些 页 面 ， 如 新 闻 网 的 主页 ， 可 能 每 小 时 都 会 滚 
动 播 出 一 些 新 闻 内 容 。 

重 访 率 和 未 访问 的 URL 排名 都 要 由 其 对 搜索 结果 的 影响 来 决定 。Pandey 和 Olston 
(2008) 将 这 种 影响 定义 为 : 网 页 出 现 或 即将 出 现在 搜索 结果 中 排名 高 的 位 置 的 次 数 。 他 们 
的 研究 意味 着 ， 当 选择 访问 一 个 新 的 URL 时 ， 应 该 优先 访问 那些 能 提高 某 个 或 多 个 查询 的 
检索 结果 的 URL。 类 似 的 ， 在 确定 重 访 率 时 我 们 也 应 该 考虑 这 种 影响 。 对 新 闻 网 的 访问 可 
以 每 小 时 一 次 甚至 更 频繁 ， 因 为 好 的 新 闻 网 站 都 是 经 常 更 新 的 而 且 影响 较 大 。 一 个 搜索 关于 
爆炸 性 新 闻 的 用 户 想 获得 最 新 的 消息 。 另 一 方面 ， 对 于 那 种 “今日 名 言 ”类 的 网 页 ， 如 果 其 他 
网 页 保持 不 变 ， 且 返回 结果 只 依赖 于 静态 内 容 ， 那 么 就 不 需要 对 该 网 页 每 天 都 进行 一 次 访问 。 

影响 和 静态 排名 相关 。 静 态 排 名 高 的 网 页 通常 也 是 访问 频率 高 的 网 页 。 但 是 ， 影 响 不 等 
于 静态 排名 (Pandey 和 Olston，2008)。 例 如 ， 一 个 网 页 的 静态 排名 高 是 因为 在 同一 个 网 站 
中 指向 它 的 网 页 具有 比 它 更 高 的 静态 排名 。 但 是 ， 如 果 在 搜索 结果 中 它 总 是 比 同一 网 站 的 其 
他 页 面 排名 要 低 ， 那 么 这 个 页 面 的 更 新 或 改变 也 不 造成 什么 影响 。 另 一 方面 ， 一 个 网 页 因为 
主题 相对 难 懂 而 导致 静态 排名 较 低 ， 只 有 很 少数 的 用 户 对 其 感 兴趣 。 但 如 果 缺 少 了 该 网 页 ， 
对 这 些 用 户 的 搜索 结果 造成 的 影响 是 很 大 的 。 


1563 ”重复 与 近似 重复 


KAA 30 多 一 40 狗 的 网 页 是 与 其 他 网 页 完全 重复 的 ， 约 2% 的 网 页 是 近似 重复 的 
(Henzinger，2006) 。 这 些 数 据 反 映 了 搜索 引擎 的 一 个 主要 问题 : 由 于 保留 不 必要 的 重复 网 
页 增加 了 存储 代价 和 处 理 开 销 。 更 重要 的 是 ， 重 复 和 近似 重复 的 网 页 会 影响 新 颖 性 ， 致 使 搜 
索 结 果 不 尽 如 人 意 。 尽 管 主机 集群 或 类 似 检 索 后 过 滤 这 些 方 法 可 以 改善 这 个 问题 ， 但 仍然 损 
失 了 性 能 代价 ， 而 且 近 似 重 复 的 页 面 仍 有 可 能 会 逃 过 过 滤 。 

检测 完全 重复 的 网 页 相对 来 说 比较 简单 。 整 个 网 页 (包括 标签 和 脚本 〉 都 可 用 哈 希 函数 
来 表达 。 得 到 的 整数 哈 希 值 可 以 拿 来 同 其 他 网 页 的 哈 希 值 进行 比较 。MD5 算法 (Rivest, 
1992) 提供 了 一 种 检测 完全 重复 的 网 页 的 可 能 的 哈 希 函 数 。 给 定 一 个 字符 串 ，MD5 为 其 生 
成 一 个 128 位 的 “信息 摘要 ”。MD5 算法 通常 用 来 验证 数据 传输 以 后 文件 的 完整 性 ， 提 供 一 
种 确定 整个 文件 是 否 被 正确 传输 的 简单 方法 。 由 于 其 信息 摘要 长 度 为 128 位 ， 所 以 发 生 数据 
冲突 的 可 能 性 是 很 小 的 练习 15. 11 所 述 情况 例外 ) 。 

通过 计算 哈 希 值 足够 检测 出 一 般 情况 下 造成 的 完全 重复 的 网 页 ， 尽 管 只 有 每 个 字 节 都 相 
同 的 情况 下 才能 测 出 重复 。 网 页 在 多 个 网 站 中 都 有 镜像 ， 如 Java 文档 ， 就 可 以 用 这 种 方法 
识别 。 许 多 网 站 会 为 每 个 无 效 URL 返回 同样 的 “Not Found” 页 面 。 有些 URL 会 包含 用 户 
或 会 话 id， 无 论 它 的 值 是 什么 ， 表 述 的 内 容 都 是 一 样 的 。 理 想 情 况 下 ， 在 抓 取 阶 段 就 应 检测 
出 完全 重复 。 一 旦 检测 到 镜像 网 页 ， 那 它 所 指向 的 其 他 镜像 网 页 就 可 以 忽略 了 。 

在 用 户 看 来 ， 即 使 两 个 网 页 不 是 每 个 字 节 都 相同 ， 但 用 户 也 会 认为 它们 是 重复 的 ， 这 是 
因为 这 两 个 网 页 包含 了 一 些 本 质 上 相同 的 内 容 。 为 检测 这 些 近 似 重复 的 网 页 ， 网 页 可 被 规范 
化 为 一 个 词 条 数据 流 ， 像 我 们 在 索引 时 所 做 的 一 样 ， 将 其 内 容 简 化 成 一 个 标准 形式 。 这 种 规 
范 化 通常 包括 删除 标签 和 脚本 。 此 外 我 们 会 删除 标点 、 大 写 单词 和 多 余 的 空格 。 例 如 ， 图 8- 
1 中 所 示 的 HTM 文档 可 被 规范 化 为 : 

william shakespeare wikipedia the free encyclopedia william shakespeare william 

shakespeare baptised 26 April 1564 died 23 April 1616 was an english poet and play- 

wright he is widely regarded as the... 
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在 规范 化 后 ， 可 采用 一 个 哈 希 函数 对 鲁 余 内 容 的 重复 网 页 进行 检测 。 

但 是 ， 近 似 重复 的 网 页 通常 会 添加 一 点 内 容 或 做 微小 的 变化 ， 就 不 能 通过 整个 页 面 的 哈 
希 值 检测 出 来 了 。 菜 单 、 标 题 和 其 他 模板 可 能 会 不 同 。 当 一 个 网 站 从 另外 一 个 网 站 复制 内 容 
时 ， 通 常会 对 副本 的 内 容 进行 编辑 。 检 测 近似 重复 需要 我 们 通过 比较 字符 串 来 比较 文档 。 例 
如 ， 一 篇 新 闻 专 线 中 的 文章 ， 当 它 也 出 现在 其 他 网 站 时 ， 它 们 之 间 会 包含 大 量 重复 的 子 字符 
串 〈 新 闻 故 事 ) ， 但 是 这 些 网 页 的 其 他 部 分 则 有 很 大 差异 。 

衡量 一 个 网 页 与 另外 一 个 网 页 的 相似 程度 ， 可 以 通过 比较 它们 共有 的 子 字符 串 来 实现 。 
假设 一 条 新 闻 出 现在 了 两 个 网 站 中 ; 规范 化 后 ， 第 一 个 网 站 中 的 页 面 大 小 为 24 KB， 第 二 个 
网 站 中 的 页 面 大 小 为 32 KB。 如 果 新 闻 本 身 的 大 小 为 16 KB， 则 可 根据 重复 内 容 计 算出 如 下 
两 个 网 页 的 相似 度 : 

16 KB 
24 KB + 32 KB — 16 KB 
因此 ， 这 两 个 页 面 的 内 容 相 似 度 为 40%。 

Broder 等 人 《1997) 提出 了 一 种 进行 相似 度 计算 的 方法 ， 而 且 该 方法 可 用 于 检测 Web 
中 近似 重复 的 网 页 。 在 他 们 的 方法 中 ， 将 从 规范 化 页 面 和 比较 页 面 中 提取 出 来 的 子 字符 串 定 
义 为 shingle， 并 通过 比较 这 些 shingle 的 重合 程度 来 衡量 。 下 面 我 们 简单 介绍 一 下 该 方法 ; 
更 详细 的 介绍 参见 Broder 等 人 “1997) 发 表 的 论文 及 其 他 文章 (Henzinger, 2006; Bern- 
stein 和 Zobel, 2005; Charikar, 2002). 

提取 自 某 个 网 页 的 长 度 为 w 的 shingle〈w-shingle) ， 由 出 现在 该 文档 中 所 有 长 度 为 w 
的 子 字 符 串 的 词 条 所 组 成 。 例 如 ， 考 虑 以 下 出 自 《Hamlet》 的 三 行文 字 : 


#1: To be, or not to be; that is the question 


= 40% 


#9. To sleep: perchance to dream; ay, there’s the rub 
#3; To be or not to be, ay there’s the point 
前 两 行 出 外 本 书 一 直 使 用 的 标准 版 本 的 莎士比亚 文集 。 最 后 一 行 可 能 出 自 该 戏 居 的 一 个 
“盗版 ”版 本 一 一 出 自 某 个 小 演员 的 记忆 。9 
规范 化 后 ， 每 行 得 到 如 下 的 2-shingle， 其 中 每 一 个 shingle 都 是 按 字母 排序 的 ， 旦 已 去 
RIR: 
#1; beor, be that, is the, not to, or not, that is, the question, to be 
#2; ay there, dream ay, perchance to, s the, sleep perchance, the rub, theres, to 
dream, to sleep 
#3, ay there, be ay, be or, not to, or not, s the, the point, theres, to be 
对 于 这 个 例子 ， 我们 令 w=2, HF Web MM, w=11 可 能 是 更 合适 的 选择 (Broder 
SEA, 1997), 
给 定 两 个 shingle 集合 4 和 B， 它 们 的 相似 性 (resemblance) 取决 于 它们 共有 的 shingle 
数量 : 
|AN B| 
JAU B| 
相似 性 的 取 值 范围 在 0~1 之 间 ， 表 示 集 合 4 与 B 所 包含 内 容 的 重复 程度 。 为 简化 相似 
性 的 计算 ， 我 们 计算 每 个 shingle 的 哈 希 值 ;， 对 于 这 个 目的 来 说 ， 通 常 64 位 的 哈 希 值 已 经 足 





(15-30) 





© internetshakespeare, uvic.ca/Library/SLT/literature/texts+1. html (2009 年 12 月 23 日 访问 ) 


第 15 章 Web 搜索 . 383 


够 了 《〈Henzinger，2006) 。 虽 然 64 位 哈 希 值 的 范围 很 小 ， 而 Web 似乎 包含 很 多 不 同 的 shingle, 
导致 计算 得 出 相同 的 哈 希 值 ， 但 除非 这 些 页 面包 含 重复 的 内 容 ， 否 则 它们 不 可 能 包含 多 个 匹配 
的 shingle。 为 达到 示例 中 的 目标 ， 我 们 任意 假设 一 个 8 位 的 哈 希 值 ， 给 定 如 下 shingle 集 : 

#1; 43, 14, 109, 204, 26, 108, 154, 172 

#2; 132, 251, 223, 16, 201, 118, 93, 197, 217 

#3; 132, 110, 43, 204, 26, 16, 207, 93, 172 

网 页 中 可 能 包含 大 量 的 shingle. W shingle 数量 的 方法 之 一 就 是 删除 那些 模 m 后 不 
为 0 的 shingle， 其 中 m=25 适用 于 Web 数据 (Broder 等 人 ，1997) 。 另 一 种 方法 就 是 保留 
s 个 值 最 小 的 shingle。 通 过 对 比 剩余 的 shingle， 可 以 估计 出 相似 性 。 对 本 例 来 说 ， 我 们 采 
用 了 第 一 种 方法 ， 其 中 m= 二 2， 最 后 得 出 偶数 值 的 shingle 如 下 : 

#1: 14, 204, 26, 108, 154, 172 

#2; 132, 16, 118 

#3; 132, 110, 204, 26, 16, 172 

在 这 个 例子 中 shingle 集合 之 间 进 行 逐 对 比较 是 容易 的 。 然 而 ， 对 数 以 十 亿 计 的 Web 3c 
档 而 言 ， 逐 对 比较 是 不 可 行 的 。 取 而 代 之 ， 我 们 构建 以 下 元 组 ， 

(shingle 值 ， 文 档 id? 
然后 根据 shingle 值 对 这 些 元 组 进行 排序 (本质 上 是 建立 倒 排 索引 )。 根 据 本 例 可 构建 如 下 
元 组 : ， 
(14, 1), (16, 2), (16, 3), (26, 1), (26, 3), (108, 1), <110, 3>, (118, 2), <132, 2), 
(132, 3), (154, 1), (172, 1), (172, 3), (204, 1), (204, 3) 
下 一 步 就 是 合并 shingle 值 相 同 的 元 组 ， 并 将 其 整理 成 如 下 形式 ， 

Gdl, id2), 
其 中 ， 每 一 对 元 组 都 表示 两 个 文档 共用 一 个 shingle。 构 建 这些 元 组 时 ， 将 shingle 值 较 小 的 
文档 排 在 前 面 。 现 在 ， 可 以 忽略 shingle 的 真实 值 ， 因 为 每 个 元 组 中 的 文档 都 有 相同 的 shin- 
gle 值 。 本 例 中 可 得 如 下 几 对 : 
《2, 3), (1, 3), (2, 3), <1, 3), <1, 3) 
排序 并 统计 ， 写 成 如 下 三 元 组 的 形式 ， 
(idl, id2, count) 
对 于 本 例 ， 这 些 三 元 组 是 : 
(1, 3, 3), (2, 3, 2) 
从 这 些 三 元 组 中 可 估计 出 #1 $3 之 间 的 相似 度 为 





3 1 
6 十 6 一 3 3 
#2 AHS 之 间 的 相似 度 为 
2 2 
3 十 6 一 2 7 
#1 AE 2 之 间 的 相似 度 为 0。 
15.7 总 结 


尽管 本 章 较 长 且 包 含 了 大 量 的 内 容 ， 但 都 是 在 重复 强调 以 下 三 个 主要 问题 规模、 结构 和 
用 户 。 
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。 Web 中 包含 大 量 的 关于 各 种 主题 的 且 使 用 不 同 诸 言 的 素材 ， 而 且 它们 还 在 不 断 地 增 
长 和 变化 。Web 的 庞大 规模 暗示 着 许多 查询 的 结果 可 能 是 大 量 的 相关 网 页 。 在 这 种 
情况 下 ， 新 颖 性 和 质量 等 因素 就 成 了 排名 中 要 考虑 的 重要 因素 。 对 于 不 同 用 户 而 言 ， 
同样 的 查询 可 能 有 不 同 的 含义 。 为 数 以 百 万 计 的 网 站 维护 精确 的 、 恰 当 的 索引 需要 
大 量 的 计划 和 资源 。 

HTML 标签 和 链接 的 结构 为 排名 提供 了 重要 特征 。 链 接 分 析 方法 已 被 看 做 是 分 析 页 
面相 关 质量 的 一 种 扩展 方法 了 。 在 网 页 标题 和 锚 文 本 中 出 现 的 词 项 的 权重 可 作为 调 
整 网 页 状态 的 一 个 指标 。 如 果 没 有 链接 ，Web 的 抓 取 工 作 几 乎 是 不 可 能 的 。 

用 户 的 行为 驱动 了 Web 检索 的 进步 。 搜 索引 擎 必须 注意 用 户 查 询 的 理解 范围 和 目 
的 。 信 息 查 询 比 导航 查询 需要 更 多 不 同 的 结果 ， 且 对 搜索 引擎 的 评价 也 需要 根据 它 
们 在 这 两 种 查询 类 型 上 的 性 能 进行 。 可 分 析 点 击 和 搜索 引擎 日 志 中 的 其 他 用 户 隐 式 
反馈 ， 以 评价 并 提高 搜索 引擎 的 性 能 。 


15.8 延伸 阅读 


Web 搜索 引擎 是 一 个 神秘 而 复杂 的 工具 ， 它 由 很 多 无 私 秦 献 的 工程 师 和 开发 者 团队 对 
其 不 断 进 行 调整 和 提高 。 本 章 中 我 们 仅仅 介绍 了 Web 搜索 中 该 技术 的 一 小 部 分 知识 。 

现在 Web 搜索 和 Web 广告 的 商业 重要 性 已 得 到 了 足够 的 重视 ， 许 多 大 型 搜索 引擎 运营 
商 和 搜索 引擎 优化 〈SEO) 公司 快速 成 长 起 来 。 这 些 SEO 建议 网 站 所 有 者 如 何 通过 合法 的 
a (偶尔) 非法 的 手段 在 主流 搜索 引擎 中 获得 更 高 的 排名 。 这 些 组 织 中 的 工作 者 经 常 在 博客 
中 记录 他 们 的 工作 ， 出 现在 这 些 博 客 中 的 技术 珍 闻 都 是 有 趣 的 且 值 得 我 们 阅读 的 。 一 个 好 的 
切入 点 是 “搜索 引擎 圆桌 会 议 ”(Search Engine RoundtableS ) Matt Cutts (Google 的 Web 
垃圾 信息 小 组 的 组 长 的 个 人 博客 是 另外 一 个 不 错 的 切入 点。 

20 世纪 90 年 代 早期 ， 就 在 Web 刚刚 兴起 不 久 ， 出 现 了 第 一 个 Web 搜索 引擎 。 到 20 世 
纪 90 年 代 中 期 ， 商 用 搜索 引擎 诞生 了 ， 如 Excite, Lycos, Altavista 和 Yahoo!， 它 们 每 天 
要 处 理 数 以 百 万 计 的 查询 。 这 些 早 期 搜索 引擎 的 历史 可 以 参见 搜索 引擎 观察 (Search En- 
gine Watch)， 该 网 站 跟踪 了 自 1996 年 以 来 的 搜索 引擎 在 商业 方面 的 技术 发 展 情况 .8 根据 在 
第 三 部 分 提 到 的 基于 内 容 的 特征 ， 这 些 早 期 的 搜索 引擎 使 用 到 一 些 简单 的 基于 链接 特征 的 技 
术 例如 ， 用 网 页 和 人 度 来 反映 它 的 受 欢迎 程度 (Marchiori, 1997). 





15.8.1 链接 分 析 


20 世纪 90 年 代 末 期 ， 静 态 排 名 和 链接 分 析 的 重要 性 得 到 了 广泛 认可 。1997 年 ，Mar- 
chiori 提出 了 链接 分 析 技 术 ， 这 项 技术 就 是 PageRank 的 前 身 。 同 年 ，Carriere 和 Kazman 
(1997) 给 出 了 一 种 分 析 Web 网 站 间 的 链接 关系 的 工具 。 

19988 年 4 月 15 日 ， 在 澳大利亚 布 里 斯 班 (Brisbane) 举行 的 第 7 次 世界 万 维 网 会 议 
(WWW) E, Brin 和 Page 展示 的 有 关 基 本 PageRank 算法 和 早期 google 搜索 引擎 结构 的 论 
文 至 今 仍 堪 称 经 典 (Brin 和 Page，1998) 。 在 发 表 这 篇 论文 后 不 久 ， 他 们 和 他 们 的 同事 基于 
这 项 工作 继续 努力 ， 描 述 了 个 性 化 PageRank 和 Web 数据 挖掘 的 基本 算法 (Brin FA, 1998; 
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Page 等 人 ，1999)。 当 Brin 和 Page 在 构建 PageRank 算法 (和 Google 搜索 引擎 ) 的 时 候 ， 
Kleinberg 在 独立 开发 HITS 算法 ， 并 在 1998 年 1 月 举办 的 第 9 尾 离散 算法 年 会 〈Annual 
Symposium on Discrete Algorithm) 上 公开 了 这 个 算法 (Kleinberg，1998，1999) 。 在 
Kleinberg 与 他 人 合 著 的 一 篇 论文 中 ， 他 将 HITS 算法 进行 了 扩展 应 用 到 了 锚 文 本 ， 该 论文 ， 
与 Brin 和 Page 的 论文 在 同一 天 同一 个 会 议 中 发 表 了 (Chakrabarti 等 人 ，1998)。Brin、 
Page 和 Kleinberg 等 人 的 工作 给 链接 分 析 技 术 的 研究 带 来 了 一 场 革命 。 

Bharat 和 Henzinger (1998) 将 HITS 和 内 容 分 析 相 结合 。 他 们 同时 还 认识 到 紧 耦 合 网 
络 给 HITS 算法 带 来 的 问题 ， 并 提出 了 这 些 问题 的 解决 方法 ， 后 来 被 Lempel 和 Moran 
(2000) RER SALSA 算法 。 根 据 SALSA 为 某 个 已 知 网 页 ( 它 的 “声誉 ”) 确定 其 主题 的 
思路 ，Rafiei 和 Mendelzon (2000) 对 PageRank 进行 了 扩展 。Davidson (2000) 指出 某 些 
链接 应 比 其 他 的 链接 分 配 更 低 的 权重 ， 并 且 训 练 了 一 个 分 类 器 将 与 商业 相关 的 链接 和 单独 有 
价值 的 链接 分 开 。Cobhn 和 Chang (2000) 对 HITS 和 矩阵 进行 主 成 分 分 析 (Principal Compo- 
nent Analysis, PCA) 以 从 中 提取 出 多 个 特征 向 量 。 还 有 很 多 学 者 提出 了 用 于 计算 个 性 化 和 
特定 主题 的 PageRank 的 有 效 的 方法 (Haveliwala，2002; Jeh 和 Widom, 2003; 
Chakrabarti, 2007), 

Ng 等 人 (200la, b) 比较 了 HITS 和 PageRank 算法 的 稳定 性 ， 证 明了 PageRank 算法 
中 跳 转向 量 的 作用 ， 并 建议 HITS 算法 也 使 用 跳 转 向 量 。Borodin A (2001) 对 HITS 和 
SALSA 进行 了 理论 分 析 并 为 进一步 优化 提供 了 建议 。Richardson 和 Domingos (2002) 提出 
了 一 种 独立 于 查询 的 PageRank 算法 ， 其 中 随机 浏览 用 户 更 倾向 于 跟随 与 查询 相关 的 链接 对 
页 面 进行 访问 。Kamvar 等 人 《〈2003) 提出 了 一 种 加 快 PageRank 计算 的 方法 。 

最 近 ，Langville 和 Meyer (2005, 2006) 对 PageRank 和 HITS 中 的 数学 理论 给 出 了 一 
份 详细 并 通俗 易 懂 的 研究 报告 。Bianchini 等 人 〈2005) 进一步 研究 了 PageRank 的 特性 。 
Craswell 等 人 (2005) 讨论 将 扩展 BM25F 与 静态 排名 结合 在 一 起 。Baeza-Yates 等 人 
(2006) 总 结 了 跳 转 向 量 所 起 的 作用 ， 并 用 其 他 的 阻尼 函数 将 其 取代 ， 围 绕 PageRank 构建 
了 一 个 算法 族 。Najork 等 人 (2007) 比较 了 HITS 和 基本 PageRank 的 检索 效果 ， 在 进行 比 
较 时 ， 分 别 单独 列 出 这 两 个 算法 的 效果 以 及 它们 与 BM25F 结合 后 得 到 的 效果 ， 以 说 明基 本 
PageRank 算法 的 局 限 性 。 在 Najork (2007) 的 相关 研究 中 ， 他 比较 了 HITS 算法 和 SAL- 
SA 算法 的 检索 效果 ， 发 现 当 做 为 静态 排名 特征 时 ，SALSA 算法 优 于 HITS 算法 。 

Gyöngyi A (2004) 提出 了 一 种 链接 分 析 技 术 ， 名 为 信任 排名 《〈TrustRank)， 该 分 析 
方法 用 于 检测 Web 垃圾 信息 。 由 Gyöngyi 和 Garcia-Molina (2005) 对 Web 垃圾 信息 问题 进 
行 了 概括 和 讨论 。 除 链接 分 析 技 术 以 外 ， 面 向 内 容 的 技术 (如 第 10 章 中 提 到 的 垃圾 邮件 过 
滤 ) 也 可 以 用 来 解决 Web 垃圾 信息 问题 。AIRWebS 工作 室 发 起 了 一 个 论坛 ， 专 门 为 检测 
Web 垃圾 信息 提供 测试 和 评价 ， 并 把 Web SRA BRB Web 中 广告 信息 检索 的 一 个 扩 
展 主题 。 

Golub 和 Van Loan (1996) 是 矩阵 数值 方法 计算 方面 的 权威 。 他 们 用 了 两 个 长 章节 来 
讨论 特征 值 问题 的 解决 方法 ， 其 中 包括 对 乘 寡 法 的 深入 讨论 。 


15.8.2 $E 
在 最 早期 的 Web 搜索 引擎 中 ， 锚 文本 作为 排名 特征 而 存在 (Brin 和 Page, 1998). Craswell 
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ÆA (2001) 将 销 文 本 同 内 容 特 征 进 行 对 比 后 证 明了 锚 文 本 的 重要 性 。Robertson 等 人 
(2004) 描述 了 将 销 文 本 结合 进 概率 检索 模型 。Hawking £A (2004) 提出 了 一 种 减 小 锁 文 
本 权重 的 方法 ， 该 方法 在 错 文 本 大 量 重 复 时 对 词 频 进 行 调整 。 


15.8.3” 隐 式 反 馈 


Joachims 和 Radlinski (2007〉 对 解析 隐 式 反馈 的 方法 进行 了 概述 ; Kelly 和 Teevan 
(2003) 对 早期 的 研究 做 了 文献 综述 。Dupret 等 人 (2007)、Liu 等 人 《2007〉 以 及 Carteret- 
te Ml Jones (2007) 都 讨论 了 将 点 击 用 于 Web 检索 评价 中 。Agichtein 等 人 (2006b) 通过 将 
多 浏览 和 点 击 特征 结合 起 来 得 到 相关 判断 。Qiu 和 Cho (2006) 提出 一 种 通过 点 击 得 出 用 户 
兴趣 的 方法 ， 由 此 允许 个 性 化 检索 结果 反映 出 用 户 的 兴趣 。 


15.8.4 Web Em 


Web Ek Wyss Sey fH Heydon 和 Najork (1999) 给 出 的 。Olston 和 Najork (2010) 
对 该 领域 进行 了 一 次 最 新 的 深入 研究 。 

对 日 益 增 加 的 网 络 仆 虫 进行 刷新 策略 的 优化 这 一 问题 已 被 多 个 小 组 研究 过 ‘Edwards 等 
A, 2001; Wolf 等 人 ，2002; Cho 和 Garcia-Molina, 2003; Olston 和 Pandey, 2008), 
Dasgupta A (2007) 研究 了 如 何 均衡 访问 新 的 URL 和 重新 访问 以 前 息 取 的 网 员 。Pandey 
和 Olston (2008) 研究 了 新 页 面 对 检 索 结 果 造 成 的 影响 。Chakrabarti $A (1999) 描述 了 
致力 于 抓 取 与 某 个 主题 相关 的 网 页 的 定向 息 忠 。 关 于 Web 疏 虫 中 优先 队列 的 高 效 实现 的 内 
容 很 少 发 布 ， 但 是 Yi 等 人 “2003》〉 的 工作 为 这 项 研究 提供 了 一 个 良好 的 开端 。 

Broder 等 人 (1997) 将 shingle 作为 一 种 检测 近似 重复 网 页 的 方法 引入 了 该 领域 。 
Henzinger (2006) 通过 实验 将 该 方法 与 Charikar (2002) 的 方法 进行 比较 ， 并 提出 了 一 种 
胜 于 这 两 种 方法 的 联合 算法 。Bernstein 和 Zobel (2005) 用 shingle 的 一 个 版 本 评价 了 近似 
重复 网 页 对 检索 效果 的 影响 。 


15.9 练习 
练习 15. 1 计算 下 列 Web 图 的 基本 PageRank。 假 设 8=3/4。 
(«)<—() 
a) \ b) J \ c) Om Om O 


练习 15.2 计算 下 列 Web 图 的 基本 PageRank, {RIX 6 二 0. 85. 
LPL 
(@) © 


练习 15.3 利用 公式 (15-9) 和 公式 〈15-10)， 证 明 对 于 所 有 n20 有 : 
5 ra) =N 


ac 
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练习 15.4 根据 公式 (15-12) 中 的 追随 矩阵 和 跳 转 向 量 ， 计 算 其 扩展 PageRank. (Ri 6 一 0. 85。 

练习 15.5 证明 转移 矩阵 M' 对 于 任何 Web 图 都 是 非 周期 的 。 

练习 15.6 除 15.3.2 节 的 信息 来 源 以 外 ， 请 给 出 其 他 信息 来 源 ， 使 其 能 用 于 建立 追随 矩阵 和 跳 转 
向 量 。 

练习 15.7 根据 公式 (15-24) 中 的 邻接 矩阵 W， 计 算 其 共 被 引 和 矩阵 A= W W 和 耦合 矩阵 五 一 1 。 


练习 15.8 根据 公式 《15-24) 中 的 邻接 矩阵 W， 计 算 其 权威 向 量 世 和 链接 向 量 h 
练习 15.9 Langville 和 Meyer (2005) 举 出 下 面 的 例子 来 阐明 HITS BRM KOH. HRY FRE 
阵 的 权威 向 量 4， 设 初始 估计 为 2 二 《1/2,，1/2,， 1/2, 1/27. 
0 0 0 0 
1000 
1 0 0 0 
0 1 1 0 
初始 估计 为 20 一 《LVN3，1/3，1/3，2/3) 时 ， 重 新 计算 权威 向 量 a. 
练习 15. 10 ”查看 知名 网 站 的 robots.txt 文件 ， 有 禁止 访问 的 页 面 或 候 虫 吗 ? 为 什么 ? 
练习 15. 11 我们 知道 MDS 算法 是 不 安全 的 。 给 定 某 个 字符 串 的 MD5 值 ， 可 以 构造 出 另外 一 个 字符 
串 ， 且 它们 的 MDS 值 相等 。 恶 意 网 站 会 如 何 利 用 这 一 弱点 对 Web 搜索 引擎 进行 攻击 ? 查找 相关 资料 并 提 
出 可 行 的 解决 方案 。 
练习 15. 12 RRT “Google bombing”。 列 出 搜索 引擎 对 该 查询 可 能 的 处 理 方式 。 
练习 15. 13 (项 目 练习 ) Bharat 和 Broder (1998) 提出 了 一 项 技术 ， 后 来 Gulli 和 Signorini (2005) 
对 其 进行 了 更 新 ， 采 用 这 项 技术 估计 可 索引 Web 的 规模 。 
练习 15. 14 (项 目 练习 ) “构建 一 个 “ 门 虫 陷阱 ”， 即 产生 一 个 动态 环境 使 一 个 Web 网 站 看 起 来 比 它 实 
际 要 大 得 多 〈 数 十 亿 的 网 页 )。 该 陷阱 需要 产生 随机 页 面 ， 包 含 的 随机 文本 〈 练 习 1.13) 中 有 随机 指向 陷 
阱 中 其 他 随机 页 面 的 链接 。 陷 阱 中 的 URL 应 带 有 随机 数 产生 器 的 种 子 ， 这 样 访问 页 面 时 才能 得 到 相同 的 
内 容 。 
注意 : 在 运行 的 网 站 中 部 署 陷阱 会 对 该 网 站 的 检索 结果 造成 不 良 影响 。 请 慎 行 。 如 有 必要 ， 请 申请 许 
可 。 如 果 你 部 署 了 陷阱 ， 最 好 增加 一 个 robots.txt AD, S| FE RRR Re. 
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Information Retrieval: Implementing and Evaluating Search Engines 


XML 检索 


以 XML 表示 的 文档 给 信息 检索 系统 提供 了 这 样 一 个 机 会 ， 在 必要 的 时 候 系 统 可 以 充分 
利用 文档 的 结构 ， 返 回 单 独 的 文档 的 某 个 部 分 作为 结果 。 为 响应 用 户 查询 ，XML 检索 系统 
返回 的 结果 可 能 是 段落 、 章 节 、 文 章 、 参 考 文献 条 目 或 其 他 元 素 的 混合 体 。 当 文档 集 包 含 很 
长 的 文档 时 ， 如 手册 或 书籍 ， 这 种 方法 就 特别 有 用 ， 可 以 直接 将 用 户 引 到 这 些 文档 最 相关 的 
部 分 中 。 

本 章 将 结束 贯穿 全 书 的 关于 文档 结构 的 一 系列 思想 的 讨论 。 我 们 从 第 1 章 开始 ， 通 过 引 
人 包括 《Macbeth》 在 内 的 莎士比亚 戏剧 集 (图 1-2)， 对 XML 进行 了 简单 概述 。 这 个 文档 
集 在 第 2 章 中 仍然 是 一 个 运行 示例 ， 并 在 此 后 的 章节 中 也 偶尔 会 出 现 。2. 1. 3 节 中 介绍 了 一 
种 通过 倒 排 索引 支持 轻 量 级 结构 的 方法 ， 并 在 5. 2 节 中 进行 了 扩展 和 规范 化 。 在 8.7 节 中 ， 
我 们 将 结构 与 概率 模型 结合 ， 根 据 结构 元 素 出 现 的 位 置 ， 对 词 项 赋予 权重 。 例 如 在 标题 或 摘 
要 中 出 现 的 词 项 权重 要 比 出 现在 附录 或 脚注 中 的 词 项 权重 大 。 第 15 章 中 我 们 探讨 了 Web 检 
索 中 销 文本 和 链接 结构 的 作用 。 

本 章 将 对 XML 和 XML 信息 检索 进行 全 面 的 介绍 。16. 1 节 中 将 讨论 前 面 忽略 的 或 未 提 
到 的 那些 XML 的 基本 知识 ， 尤 其 是 XML 文档 的 递归 结构 和 标签 属性 。16. 2 节 将 从 数据 库 
的 角度 对 XML 检索 进行 进一步 的 讨论 。 这 一 节 还 引入 了 XPath 查询 语言 ， 可 用 于 检索 满足 
某 种 特别 标准 的 XML 元 素 集 合 。XPath 在 XML 检索 中 的 作用 就 如 布尔 代数 在 基本 文档 检 
索 中 的 作用 一 样 ， 人 允许 我 们 选择 元 素 的 一 个 子 集 用 于 进一步 处 理 ， 例 如 排名 。 我 们 还 讨论 了 
XPath 的 一 个 变形 一 一 NEXI 查询 语言 ， 专 门 用 于 解决 与 XML 检索 有 关 的 问题 。 另 外 ， 本 
章 简要 介绍 了 XQuery 语言 ， 该 语言 为 查询 和 操作 XML 文档 提供 了 先进 的 方法 。 

本 章 介 绍 的 多 种 语言 ， 包 括 XPath, XQuery 以 及 XML 本 身 ， 都 是 万 维 网 协会 的 
CW3C) 标准 。W3C 是 一 个 国际 标准 组 织 ， 发 布 了 很 多 关于 Web 技术 的 官方 标准 ， 可 以 通 
过 它 的 Web 网 站 9 访问 到 。 

本 章 第 3 一 5 节 分 别 对 应 本 书 的 第 二 、 三 和 四 部 分 : 16. 3 节 考 察 索引 和 查询 处 理 方法 ; 
16.4 节 讨 论 排名 ; 16. 5 节 介 绍 评价 方法 。 对 索引 和 查询 处 理 的 讨论 是 基于 5. 2 节 中 介绍 的 
轻 量 级 结构 进行 的 。 

对 排名 检索 和 评价 的 讨论 都 在 XML 检索 评价 倡议 (INEXS) 的 内 容 上 进行 。INEX 自 
2002 年 就 开始 提供 类 似 TREC 的 实验 平台 ， 针 对 XML 编码 的 文档 集 ， 大 家 展示 各 自 的 信 
息 检索 技术 ， 并 对 其 进行 评价 。 每 年 约 有 100 个 来 自 工业 和 学 术 界 的 小 组 参加 INEX。2006 
年 之 前 ，INEX 采用 发 表 在 IEEE 计算 机 协会 中 的 杂志 和 期 刊 上 的 文章 作为 检索 文档 集 。 自 
2006 年 起 ，INEX 开始 采用 英文 版 维基 百科 全 书 中 的 文章 的 XML 形式 的 文档 集 。NEXI 语 
言 的 诞生 部 分 功劳 是 属于 INEX 的 。 

XML 检索 是 一 个 与 传统 数据 库 检 索 紧 密 相 关 的 广泛 课题 ， 而 且 对 该 领域 的 基本 构成 也 
有 很 多 不 同 观点 。 虽 然 主要 的 数据 库 供 应 商 现 在 已 经 将 支持 XML 的 功能 融入 他 们 的 产品 当 
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中 ,但 是 XML 在 信息 检索 中 的 作用 还 没有 得 到 重视 。 总 而 言 之 ， 与 前 述 章 节 相 比 ， 本 章 更 
倾向 于 作 介 绍 性 的 概述 ， 而 不 是 深入 研究 。 


16.1 XML 的 本 质 


图 16-1 给 出 了 一 篇 XML 形式 的 期 刊 文章 的 部 分 内 容 。 该 图 给 出 了 一 些 前 面 章 节 没 有 提 
及 的 XML 的 几 个 方面 。 文 档 开始 于 一 个 XML 声明 (declaration)， 表 示 下 面 的 内 容 遵 从 
XML 1.0 标准 且 内 容 使 用 UTF-8 编码 : 


<?xml version= "1. 0" encoding = "UTF-8"?> 
每 个 元 素 都 以 形 为 (name) 的 开始 标签 作为 开始 ， 以 形 为 〈/name》 的 结束 标签 作为 结束 。 
XML 的 开始 标签 中 可 能 包含 一 个 或 多 个 属性 ， 形 如 : 


attribute 一 value 


图 中 文章 的 标签 包含 了 提供 参考 文献 信息 的 属性 : 
(article journal 一 "IEEE TKDE" volume="9" number="2" year="1997") 


<?xml version="1.0" encoding="UTF-8"7> 
<article journal="IEEE TKDE" volume="9" number= "2" year="1997"> 
<!-- Foundational paper on inverted index compression -一 > 
<header> 
<title>Text Compression for Dynamic Document Databases</title> 
<author>Alistair Moffat</author> 
<author>Justin Zobel</author> 
<author>Neil Sharman</author> 
<abstract><p>For compression of text databases...</p>...</abstract> 
</header> 
<body> 
<section number="1"> 
<title>Introduction</title> 
<p>Modern document databases contain vast quatities of text...</p> 
<p>There are good reasons to compress the text...</p> 


</section> 
<section number="2"> 
<title>Reducing memory requirements</title> 
<p>In this section we assume a static text collection...</p>... 
<section number="1"> 
<title>Method A</title> 
<p>The first method considered for choosing which words...</p>... 
</section> 
</section> 


$ 





</body> 
</article> ; 


图 16-1 采用 XML 编码 的 一 篇 期 刊 文章 
章节 标签 中 包含 了 指定 其 章节 号 的 属性 ; 


<section number = "2"> 
属性 值 要 用 单 引号 或 双 引 号 括 起 。 标 签 也 可 用 (name/) HBR. BER 〈 图 中 未 给 出 ) 也 
称 为 空 元 素 标 签 (empty-element tag) 。 空 元 素 标签 本 质 上 与 一 个 开始 标签 后 紧 跟 一 个 结束 
标签 Cname) (/name)) 的 效果 是 等 价 的 。 空 元 素 标签 没有 内 容 但 是 可 以 有 属性 。 
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XML 文档 也 可 能 包含 注释 ， 以 字符 串 “《〈! 一 一 ”开始 并 以 字符 串 “ 一 一 )” 结 束 。 图 
中 的 注释 给 出 了 该 论文 的 一 个 简要 评论 。 用 应 用 软件 或 工具 创建 或 更 新 的 XML 文档 通常 会 
包含 表明 软件 的 名 称 和 版 本 号 的 注释 。 注 释 既 不 是 内 容 也 不 是 结构 。 对 于 解析 和 处 理 的 
XML 的 软件 而 言 ， 不 要 求 这 些 注释 是 可 见 的， 而且 为 了 索引 和 检索 ， 将 这 些 注释 保留 在 文 
档 中 可 能 也 是 不 合适 的 。 l 

XML 元 素 必须 是 嵌 套 的 。 不 允许 存在 重 秋 交错 的 元 素 。 与 之 不 同 的 是 ，5. 2 节 中 提 到 
的 区 域 代数 是 允许 重 全 的。 实际 上 ，HTML 也 一 样 ， 至 少 在 有 限 的 范围 内 是 允许 重 有 的。 
例如 下 面 的 HTML 片段 : 

<p> Simple «<b>example.… <p> 

<p> «illustrating <em>overlapping</b> tags in </em> HTML. </p> 

尽管 从 技术 上 讲 ， 这 个 片段 不 是 一 个 合法 的 HTML， 但 它 能 很 好 地 说 明 上 述 问题 。 大 
部 分 浏览 器 都 能 正确 处 理 这 个 片段 ， 把 这 个 片段 泻 染 成 

Simple example... 

... illustrating overlaping tags in HTML. 

当 文 档 结 构 不 是 严格 层次 化 的 时 候 ，XML SS RS BY IK BER SEE I SE IE 

的 文档 结构 〈Hockey，2004) 。 例 如 ， 图 1-2 中 摘录 的 《Macbeth》 文 档 片段 ,第 6 行 和 第 8 行 
台词 对 应 多 个 讲演 者 。 图 1-3 中 的 XML 编码 为 保持 层次 结构 而 将 这 几 行 分 离开 ， 从 而 忽略 

了 诗歌 本 身 的 结构 (有 争议 说 这 样 做 更 有 意义 ) 。 下 面 的 编码 更 好 地 反映 了 第 8 行 的 诗歌 结构 : 

<SPEECH> 

<SPEAKER>First Witch< /SPEAKER> 
<LINE>Where the place? 
</SPEECH> 
<SPEECH> 
<SPEAKER> Second Witch</SPEAKER> 


Upon the heath. </LINE> 
</SPEECH> 


焉 憾 的 是 ， 上 述 编码 并 非 结 构 良 好 的 XML. 

尽管 XML 不 支持 重 肥 元 素 ， 但 它 支 持 递 归结 构 。 正 如 图 16-1 所 示 ， 章 节 中 会 包含 章 
节 ， 所 包含 章节 中 也 包含 了 其 他 章节 ， 如 此 类 推 。 这 种 递归 结构 使 我 们 能 够 根据 需要 构建 子 
章节 以 及 子 章节 的 子 章 节 ， 且 不 需要 预先 定义 骨 套 的 最 大 深度 。 

XML 标准 定义 了 格式 化 的 文档 (well-formed document) 这 一 概念 。 除了 其 他 要 求 外 ， 
格式 化 的 文档 中 的 标签 、 属 性 以 及 注释 还 必须 遵循 上 述 的 格式 规则 。 

XML 的 一 个 重要 特性 就 是 能 够 提供 结构 性 元 数据 (structural metadata) 来 约束 格式 化 
XML 文档 的 内 容 。 这 些 约束 可 能 会 要 求 某 些 特定 的 元 素 中 需要 包含 其 他 特定 的 元 素 。 例 如 ， 
所 有 的 期 刊 文章 都 必须 要 包含 一 个 头 部 和 一 个 主体 。 可 以 为 每 个 元 素 指定 一 个 允许 的 属性 
集 ， 有 些 属性 是 必须 的 ， 而 有 些 是 可 选 的 。 例 如 ， 要 求 一 篇 论文 使 用 某 些 属性 来 指明 所 发 表 
期 刊 和 发 表 年 份 ， 辣 时 允许 使 用 附加 属性 指明 该 论文 的 卷 号 和 刊 号 。 进一步 的 约束 可 以 在 属 
性 值 中 设 定 。 例 如 ， 章 节 号 必须 是 自然 数 。 当 已 为 XML 文档 提供 结构 性 元 数据 时 ， 检 索 系 
统 可 以 利用 它 来 优化 查询 处 理 过 程 。 

为 XML 指定 结构 性 元 数据 有 两 个 标准 。 第 一 个 标准 叫做 文档 类 型 定义 (document type 
definition) 或 DTD， 它 是 两 个 标准 当中 比较 旧 的 ， 也 是 比较 简单 的 标准 。 它 主 要 关注 XML 
文档 的 结构 性 组 织 一 一 元 素 必须 怎样 进行 舱 套 以 及 都 拥有 哪些 属性 。 第 二 个 标准 叫做 XML 
模式 (XML Schema)， 它 允许 为 元 素 和 属性 定义 复杂 类 型 。DTDs 源 自 旧 的 SGML 标准 ， 
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这 是 XML 的 基础 。XML 模式 是 一 个 新 标准 ， 主 要 是 为 了 解决 DTDs 的 局 限 性 。 任 何 用 
DTD 表示 的 约束 都 可 以 用 XML 模式 表示 ， 但 反之 并 不 成 立 。 


16.1.1 文档 类 型 定义 


图 16-2 中 的 DTD 与 图 16-1 中 的 期 刊 文章 是 一 致 的 。 为 了 便于 讨论 ， 图 中 所 示 的 DID 
局 = f 3 
只 包括 元 素 和 属 性。 事实 上 ， 期 刊 文章 的 DTD <?aml version="1.0"?> 
需要 包含 引用 、 脚 注 、 医 形 、 表 格 、 标 题 、 目 | <ELEMENT article (header body)> 
录 、 公 式 、 附录 以 及 类 似 的 结构 。 <!ATTLIST article journal CDATA #REQUIRED> 
A — ee op <!ATTLIST article volume CDATA #IMPLIED> 
DTD 以 人 声明 开始 ， 表 示 其 采用 了 | cnrrrrsr article number CDATA #IMPLIED> 
XML 1.0 标准 。 尽 管 DID 看 起 来 神秘 , 但 | cihTTLIST article year CDATA #REQUIRED> 
它 多 少 还 是 采用 上 下 文 无 关 的 语法 来 描述 了 pene wee abstract?) > 
— sped `; — ` <!ELEMENT body (section+)> 
TER BAM TRAE BBA ICR ATA <!ELEMENT title (#PCDATA)> 
属性 。 每 个 ELEMENT 声明 都 定义 了 一 个 语 | <IELEMENT author (#PCDATA)> 


法 规则 。 如 下 面 的 声明 <!ELEMENT section (title, p*, section*)> 
: <!ATTLIST section number CDATA #REQUIRED> 
! ELEMENT art bod 
< icle(header, y)> <!ELEMENT abstract (p)> 


表明 一 个 文章 元 素 包含 两 个 子 元 素 : 类 部 和 <!ELEMENT p (#PCDATA)> 
主体 。 继 而 头 部 由 一 个 标题 、 一 个 或 多 个 作 
者 以 及 一 个 可 选 的 摘要 组 成 ， 图 16-2 ”期 刊 文章 的 一 个 〈 部 分 ) DTD 

<! ELEMENT header( title, author + , abstract? )> 
紧 蹊 在 元 素 名 后 面 的 问号 〈“?”) 表示 该 元 素 是 可 选 的 。 紧 跟 在 元 素 名 后 面 的 加 号 (“十 ”) 
表示 该 元 素 会 出 现 一 次 或 多 次 。 紧 跟 在 元 素 名 后 面 的 星 号 (Cx 表示 该 元 素 会 出 现 0 次 或 
多 次 。 

DTD 中 有 可 能 混淆 的 地 方 就 是 ELEMENT 声明 中 并 没有 指定 各 个 元 素 的 顺序 。 在 头 部 
中 ， 标 题 、 作 者 和 摘要 出 现 的 顺序 可 以 是 任意 的 。 用 户 普遍 接受 的 顺序 是 头 部 先 出 现 摘要 ， 
然后 是 作者 ， 接 下 来 是 标题 ， 最 后 还 有 另外 两 名 作者 。 由 于 继承 自 SGML， 在 XML 的 
DTD 中 指定 元 素 出 现 顺序 是 不 可 能 的 。 

标题 的 声明 表示 它 只 包含 文本 内 容 ， 

<! ELEMENT title( # PCDATA) > 
RE “PCDATA” ER “已 解析 的 字符 数据 ”， 其 本 质 上 就 是 一 个 普通 文本 。 属 性 在 AT- 
TLIST 声明 中 定义 。 下 面 的 声明 表示 章节 有 一 个 必 选 属性 提供 章节 号 : 

<!ATTLIST section number CDATA + REQUIRED» 

类 型 为 “CDATA” 的 属性 表示 它 由 普通 文本 组 成 。 我 们 可 能 希望 其 属性 值 取 自 然 数 ， 但 
DTD 无 法 表达 这 种 类 型 的 限制 。 

为 什么 在 元 素 声 明 中 用 “# PCDATA” 表 示 普 通 文本 ， 而 在 属性 声明 中 却 用 “# CDA- 
TA” 表 示 普 通 文本 呢 ? 答案 就 在 解析 XML 的 细节 中 ， 不 过 这 超出 了 本 书 的 讨论 范围 。 尽 
管 DTD 作为 上 下 文 无 关 的 语法 的 基本 概念 看 起 来 相对 简单 ， 但 对 其 进行 深入 表述 和 讨论 将 
需要 足 足 一 章 内 容 。 

为 了 将 DTD 和 文档 联系 起 来 ， 文 档 中 必须 包含 一 个 文档 类 型 声明 Cdocument type de- 
claration) 。 尽 管 DTD 可 以 直接 出 现在 类 型 声明 中 ， 但 是 为 了 方便 最 好 将 DTD 放 在 一 个 单 
独 的 文件 中 ， 并 通过 它 的 文件 名 来 访问 它 。 这 样 多 个 文档 就 可 以 共享 一 个 DID 了。 例如， 
图 16-2 中 的 DTD 可 以 存储 在 一 个 名 为 “article，dtd” 的 文件 中 。 下 面 的 类 型 声明 可 加 入 到 
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图 16-1 所 示 文 档 的 第 二 行 中 ， 紧 跟 在 XML 声明 之 后 : 


<! DOCTYPE article SYSTEM "article. dtd"> 


16.1.2 XML 模式 


XML 模式 为 元 素 和 属性 提供 了 非常 强大 的 类 型 机 制 。 我 们 只 简单 介绍 一 下 XML 模式 ; 
-其 全 面 的 描述 和 讨论 需要 足 足 一 本 书 (van der Vlist, 2002), XML 模式 的 核心 是 大 量 内 置 
的 基本 类 型 《primitive type) ， 包 括 整 型 、 浮 点 型 数字 、 日 期 、 时 间 、 时 间 段 和 URL。 派 生 
类 型 〈derived type) 在 这 些 基 本 类 型 上 添加 额外 限制 。 例 如 ， 我 们 可 能 会 限制 表示 期 刊 名 
的 字符 串 的 最 短 长 度 。 复 合 类 型 〈complex type) 通过 结合 基本 类 型 、 派 生 类 型 以 及 其 他 复 
合 类 型 来 为 元 素 提供 类 型 。 如 文章 及 其 头 部 中 的 元 素 顺序 可 以 用 复合 类 型 指定 ， 将 其 文件 卷 
号 属性 值 和 期 号 属性 值 进 行进 一 步 约束 为 自然 数 ， 将 其 年 份 属性 值 约束 为 年 份 。 


16.2 bet, A FLWOR 
由 于 XML 元 素 必 须 嵌 套 ， 所 以 可 以 把 它 看 成 一 棵 树 。 图 16-3 给 出 了 图 16-1 中 文档 的 

树 形 结构 。 树 形 结构 所 表示 的 只 是 图 it 

16-1 中 给 出 的 部 分 文档 ;其 余部 分 为 ~ 

清晰 和 简单 起 见 已 经 省 上 略 了 。 尽 管 图 

中 并 未 包含 这 个 文档 的 文本 如 它 的 we he Nie of X 

并 PCDATA)， 但 文本 也 被 视 为 一 个 | 


叶 节 点 的 集合 ， 附 着 在 包含 它们 的 元 标题 了 标 从 
素 上 。 其 属性 也 可 以 一 样 被 视 为 附着 章节 了 
在 对 应 元 素 上 的 叶 节点 。 
图 16-3 图 16-1 中 XML 文档 的 树 形 结构 
或 许 因为 XML 文档 很 自然 地 被 


看 成 一 棵 树 ， 所 以 XML 检索 也 经 常 被 看 做 是 树 匹 配 或 路 径 匹配 问题 。 这 就 是 包括 XPath, 
NEXI 和 XQuery 在 内 的 XML 查询 语言 所 采用 的 观点 。 


16.2.1 XPath 


XPath 为 指定 元 素 集 和 XML 文档 中 的 其 他 节点 提供 了 标准 的 符号 。1999 年 11 月 W3C 
最 终 敲 定 并 发 布 了 XPath 的 初始 版 本 〈 版 本 1.0) .82007 年 1 月 发 布 了 第 二 版 的 XPath 〈 版 
本 2.0) ， 同 时 也 发 布 了 第 一 版 本 的 XQuery 标准 .2 可 是 急切 地 想 要 从 XPath2. 0 中 构造 一 个 
严格 的 XQuery 子 集 所 导致 的 结果 是 ，XPath 2. 0 并 不 兼容 XPath 1.0。 幸 运 的 是 ， 这 些 不 
兼容 多 数 存在 于 底层 数据 模型 的 细节 中 ， 与 本 章 所 给 出 的 简单 例子 并 无 关系 。 

XPath 给 出 了 指定 文档 元 素 集合 和 其 他 节点 的 表达 方式 ， 称 为 路 径 表 达 式 (path ex- 
pression) 。 最 简单 的 路 径 表达 式 就 是 用 斜 线 来 分 隔 元 素 名 的 列表 。 如 以 下 路 径 表 达 式 : 

/article/body/section 
指定 了 文章 主体 中 所 有 一 级 章节 的 集合 。 类 似 的 ， 路 径 表 达 式 

/article/body/section/section 


指定 了 所 有 二 级 章节 〈 子 章节 ) 的 集合 。 路 径 表达 式 
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/article/body/section/title 
指定 了 所 有 的 一 级 章节 的 标题 。 这 个 符号 专门 使 用 了 与 用 于 指定 URL 路 径 组 成 和 UNIX 操 
作 系 统 中 文档 路 径 类 似 的 表达 方式 。 

除 路 径 表 达 式 以 外 ，XPath 也 支持 各 种 算术 、 逻 辑 和 字符 串 表达 式 ， 并 且 还 提供 大 量 的 
内 蕾 函 数 。 这 些 支持 使 得 XPath 可 以 和 其 他 语言 联合 使 用 ， 为 那些 语言 提供 一 般 化 的 表达 
方式 。 这 样 的 语言 包括 XQuery 和 样式 表 语 言 XSL ( 另 一 种 W3C 标准 语言 ) XPath 1. 0 还 
提供 了 一 种 用 于 归并 元 素 集合 的 运算 符 ，XPath 2. 0 将 它 扩 展 为 支持 其 他 集合 的 运算 符 。 

路 径 表达 式 中 可 以 包含 谓词 ， 用 来 指定 属性 值 和 元 素 位 置 。 如 以 下 路 径 表 达 式 

/article/body/section[2] 
表示 了 文档 序 中 的 第 二 个 章节 。 路 径 表 达 式 

/article/body/section[ @number = 2] 
表示 属性 值 为 2 的 一 级 章节 〈 和 前 面 的 例子 相同 的 那个 元 素 )。 谓 词 也 可 以 用 来 指定 元 素 或 
属性 的 内 容 。 路 径 表 达 式 

/article/body/section[ contains(./title, "memory requirements") ] 
表示 章节 标题 中 包含 字符 串 “memory requirements”, HH “. /title” RANMA. E 
径 中 也 可 以 采用 descendant-or-self 符号 来 “ 跳 过 ”元 素 ， 该 符号 用 双 斜 线 C RM. 
例如 ， 路 径 表达 式 | 

/article//section . 
表示 一 篇 文章 中 的 全 部 章节 (忽略 姐 套 或 深度 )。 路 径 表 达 式 

//section/title 
表示 所 有 章节 的 标题 。 

上 述 例子 没有 涉及 路 径 表 达 式 的 复杂 性 。 除 了 上 述 特性 ，XPath 提供 了 一 些 奇怪 的 附加 
符号 来 作为 在 祖先 节点 、 兄 弟 节点 和 子孙 节点 间 的 导航 。 


16.2.2 NEXI 


XPath 不 支持 排名 检索 。 正 如 2. 2. 3 节 中 提 到 的 布尔 代数 和 5. 2 节 中 提 到 的 区 域 代数 一 
样 ，XPath 有 完全 匹配 的 语义 。 即 一 个 路 径 表 达 式 指定 的 节点 集合 与 表达 式 本 身 指定 的 标准 是 
完全 匹配 的 。 特 别 是 XPath 表达 式 的 contains 函数 实现 了 字符 串 的 完全 匹配 。 如 路 径 表 达 式 

//article//section[contains(., "compression codes") ] 
要 求 字 符 串 “compression codes” 逐 字 逐 句 地 出 现在 对 应 的 章节 中 。Xpath 没有 为 与 “com- 
pression codes” 有 关 的 有 序 段 落 集 提供 任何 指定 方式 。 

在 研究 INEX 时 ，Trotman 和 Sigurbjörnsson (2004) 提出 了 Xpath 的 一 个 变形 ， 称 为 
NEXI (Narrowed Extended XPath D 来 打破 这 些 限 制 。NEXI 将 XPath 所 包含 的 路 径 表达 
式 压 缩 成 一 个 子 集 ， 这 样 就 对 排名 检索 提供 了 扩展 支持 。 

由 于 元 素 的 确切 内 容 在 信息 检索 应 用 中 可 能 没 那么 重要 ， 所 以 NEXI 只 为 这 些 路 径 提 供 
descendant-or-self 符号 (“//”)。 为 指定 排名 检索 ，NEXI 将 contains 函数 替换 为 about。 有 
关 “compression codes” 的 章节 标题 的 排名 列表 应 该 用 下 面 的 路 径 表达 式 

//article//section[about(., "compression codes") ] 
NEXI 为 路 径 表 达 式 既 提 供 了 严格 的 解释 也 提供 了 宽松 的 解释 。 在 严格 解释 时 ， 上 述 表 达 式 
的 结果 集中 将 只 包含 文章 的 章节 。 在 宽松 解释 时 ， 结 构 信 息 将 作为 关于 用 户 需 求 的 提示 来 处 
E. 路 径 表 达 式 表明 用 户 偏好 文章 的 章节 ， 但 是 系统 可 以 返回 其 他 元 素 ， 如 段落 。 当 对 元 素 
进行 排名 时 ， 系 统 需要 平衡 好 元 素 的 内 容 和 由 用 户 提供 的 结构 性 提示 ， 以 决定 总 体 相 关 性 。 
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NEXI 允许 用 布尔 操作 符 “and” 和 “or” 来 连接 路 径 元 素 。 例 如 ， 路 径 表 达 式 
//acticle[ about(. //p, "compression codes”) and about(. //author, moffat) } 
请 求 返回 一 个 由 Moffat 写 的 文章 的 有 序列 表 ， 且 该 文章 的 段落 是 关于 “compression codes” 
的 。NEXI 只 对 词组 使 用 引号 ， 因 此 该 表达 式 中 并 没有 对 “Moffat” 使 用 引号 。NEXI 也 多 
许 在 路 径 表 达 式 中 采用 通配符 ， 即 用 星 号 “* ”表达 的 符号 。 如 路 径 表 达 式 


//section// x [about(., "compression codes") J 
请 求 返回 一 个 章节 中 包含 关于 “compression codes” 元 素 的 有 序列 表 。 

尽管 NEXI 不 是 W3C 的 官方 标准 ， 它 在 XML 信息 检索 领域 中 还 是 得 到 了 广泛 的 认同 。 
NEXI 在 该 领域 外 相对 来 讲 还 是 鲜 为 人 知 的 ， 随 着 XML 信息 检索 的 广泛 应 用 该 情况 有 可 能 
会 得 到 改善 。 


16.2.3 XQuery 


本 节 将 粗略 地 介绍 一 下 XQuery 语言 。XQuery (也 称 XML XQuery) 本 质 上 是 为 方便 
地 操作 和 和 转换 XML 文档 而 对 XPath 进行 的 扩展 。 尤 其 是 ，XQuery 允许 表达 式 动态 地 构建 
XML， 使 得 表达 式 输出 本 身 就 是 XML. XQuery 表达 式 对 节点 和 值 的 有 序 序列 进行 操作 。 
序 询 中 每 个 节点 和 值 都 必须 有 与 之 相对 应 的 类 型 ， 该 类 型 由 XML 模式 提供 。 
XQuery 的 核心 是 FLWOR 表达 式 (FLWOR expression) 《发 音 和 “flower” 一 样 )， 它 
是 for, let, where, order by 和 return 的 首 字母 缩写 。 这 些 缩写 就 暗示 了 FLWOR 表达 式 
各 个 部 分 和 它 的 操作 。FLWOR 表达 式 为 序列 的 创建 、 过 滤 、 排 序 以 及 选 代 提供 了 一 种 机 
制 。 与 SQL 中 的 select 语句 相 类 似 ，FLWOR 表达 式 可 计算 多 个 XML 文档 的 连接 。 
为 了 说 明 FLWOR 表达 式 ， 我 们 从 XQuery 标准 2 中 引出 一 个 例子 。 假 设 有 一 个 采用 
XML 编码 的 戏剧 的 参考 文献 如 下 : 
<bib> 
<play> 
<author> Shakespeare< /author> 
<title>Hamlet</title> 
<year>1599</year> 
</play> 
<play> 
<author>Beckett</author> 
<title> Waiting For Godot</title> 
<year>1949</year> 
</play> 
<play> 
<author> Shakespeare</author> 
<title>Macheth</title> 
<year>1603<year> 
</play> 
<play> 
<author> Stoppard< /author> 
<titlesRosencrantz and Guildenstern Are Dead</title> 
<year> 1966</year> 
</play> 
</bib> 
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图 16-4 中 的 FLWOR 表达 式 通 过 创建 一 个 剧 作家 的 列表 来 识别 这 个 数据 ， 每 一 个 剧 作 
家 名 字 与 他 的 作品 列表 一 起 出 现 。 该 例子 由 两 个 典 套 表达 式 组 成 。 外 部 表达 式 构建 了 一 个 作 
者 列表 ;内 部 表达 式 为 每 个 作者 构建 了 一 个 作品 列表 。 对 上 述 参 考 文献 〈 与 变量 $bib H 
定 ) 执行 这 个 表达 式 以 后 会 产生 以 下 输出 : 


<works> 
<playwright> 
<name> Beckett< /name>> 
<plays> 


<titles Waiting For Godot</title» 


</plays> 
</playwright> 
<playwright> 
<name> Shakespeare< /name> 
<plays> 
«title Hamlet</title> 
<title>Macbeth</title> 
</plays> 
«</playwright> 
<playwright> 
<name> Stoppard< /name> 
<plays> - 


<title>Rosencrantz and Guildenstern Are Dead< /title> 


</plays> 
</playwright> 
</work> 


由 于 受到 数据 库 和 编程 语言 理论 研究 很 
大 的 影响 ，XQuery 拥有 复杂 的 形式 语 
义 和 静 态 类 型 。 它 的 学 习 曲 线 是 陡峭 
的 。 令 人 意外 的 是 ， 在 类 型 系统 付出 如 
此 大 的 努力 并 使 用 如 此 复杂 的 形式 语义 
后 ， 静 态 类 型 居然 是 可 选 的 类 型 。 如 何 
进行 强制 操作 类 型 是 可 以 自由 选择 的 ; 
或 者 在 查询 前 静态 地 进行 转换 ， 或 者 在 
执行 过 程 中 动态 地 抛 出 类 型 异常 。 混 合 
采用 以 上 两 种 方式 也 是 可 以 的 。 


16.3 ”索引 和 查询 处 理 
XML 的 索引 和 查询 处 理 引 出 了 两 





— 
<works> 
{ 
for $a in fn:distinct-values($bib/play/author) 
order by $a 
return 
<playwright> 
<name> {$a} </name> 
<plays> 
{ 


for $p in $bib/play [author = $a] 
corder by $p/title 
return $p/title 
} 
</plays> 
</playwright> 


} 
</works> 


KI 16-4 XQuery 的 一 个 FLWOR RAA 








_ | 





个 突出 问题 ， 这 两 个 问题 采用 5.2 节 中 的 区 域 代数 是 很 难 解决 的 。 第 一 ， 元 素 可 能 是 递归 嵌 


套 的 。 如 下 面 表达 式 的 结果 


//section/section 


涵盖 了 包含 在 另外 一 个 章节 中 的 所 有 章节 ， 且 忽略 嵌 套 或 深度 。 尽 管 解决 办 法 可 以 表示 成 一 


系列 的 间隔 ， 一 些 章节 骨 套 着 其 他 章节 ， 


但 是 它 不 可 以 表示 成 一 个 GC-list。XPath 查询 处 


理 策 略 必须 恰当 地 解决 这 一 递归 问题 。 第 二 ，XPath 表达 式 可 以 直接 地 指定 内 容 之 间 的 关 


系 。 如 下 表达 式 的 结果 


/article/body/section/p 
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内 涵盖 了 直接 包含 在 所 有 一 级 章节 中 的 段落 ， 不 包含 那些 在 子 章 节 和 子 章节 的 子 章节 中 的 段 
落 。 另 一 方面 ， 与 区 域 代数 不 同 ，XPath 对 重 番 的 结构 没有 要 求 。 由 于 元 素 一 定 是 组 套 的 ， 
所 以 我 们 可 以 将 文档 看 做 树 。 

为 适应 递归 结构 和 直接 包含 的 情况 ， 我 们 对 倒 排 表 ADT 进行 扩展 ， 因 此 每 个 位 置信 息 
列表 中 的 元 素 就 变 成 了 一 个 包含 3 个 值 的 三 元 组 : 起 始 位 置 、 结 束 位 置 和 在 树 中 的 深度 : 

(start, end, depth) 
与 区 域 代数 不 同 ， 元 素 的 起 始 和 结束 标签 没有 单独 的 位 置信 息 列表 ， 但 它们 共享 一 个 联合 的 
位 置信 息 列表 。 对 于 一 个 元 素 而 言 ， 三 元 组 中 的 起 始 位 置 表示 起 始 标签 的 位 置 ， 结 束 位 置 表 
示 结 束 标签 的 位 置 。 对 其 他 词 条 而 言 ， 如 词 ， 起 始 位 置 和 结束 位 置 是 相 辣 的， 以 表示 词 条 的 
位 置 。 这 些 扩 展位 置信 息 列表 中 的 三 元 组 根据 起 始 位 置 进行 排序 。 

例如 ， 回 到 图 2-1 中 《Macbeth》 的 倒 排 索引 ， 该 戏剧 的 扩展 位 置信 息 列 表 变 为 

{(3, 40508, 1), (40511, 75580, 1), =+, (1234602, 1271504, D? 
这 个 位 置信 息 列表 的 深度 值 始终 为 1， 因 为 戏剧 只 以 最 顶端 元 素 的 形式 出 现 ， 而 且 一 个 位 置 
信息 列表 中 所 有 三 元 组 的 深度 值 不 需要 完全 相同 。 例 如 ， 对 白 的 扩展 位 置信 息 列表 为 

{(312, 470, 4), (471, 486, 4), =+, (506542,，506878，3),…，(1271273，1271498，44))} 
演讲 通常 在 深度 为 4 的 位 置 出 现 ， 骸 套 在 戏剧 表演 的 一 个 场景 中 ， 但 也 可 以 出 现在 深度 为 3 
的 位 置 ， 作 为 戏剧 的 开场 。“witch” 的 位 置信 息 列表 为 

{ (1598,1598, 6), (27555, 27555, 6), ++, (432149，432149,4),*……，(1245276，1245276，6)} 
女巫 可 能 在 深度 为 6 的 位 置 以 讲话 者 的 身份 出 现 ， 或 者 在 深度 为 4 的 位 置 出 现在 人 物 名 单 
中 。 为 实现 这 种 扩展 功能 ， 我 们 将 倒 排列 表 ADT 的 四 个 方法 修改 成 如 下 形式 : 





first( term) 返回 给 定 term 的 第 一 个 元 组 
last( term.) 返回 给 定 term 的 最 后 一 个 元 组 
next( term, current) 返回 current 位 置 的 下 一 个 元 组 
prev(term, current) 返回 current 位 置 的 上 一 个 元 组 
例如 ， 


first(“(PLAY)”) = (3, 40508, 1) 
last(““(SPEECH)”) = (1271273, 1271498, 4) 
next(“(SPEECH)”, 400) = (471, 486, 4) 
prev(“witch”, 20000) = (1598, 1598, 6) 
这 个 经 修改 的 倒 排 索引 可 以 把 从 结构 性 元 数据 
中 得 到 的 知识 联合 起 来 ， 有 效 地 解决 XPath 表 
达 式 的 问题 。 例 如 ， 图 16-5 中 的 代码 解决 了 类 
似 于 图 16-1 的 路 径 表 达 式 

//section//section else 
在 期 刊 文章 上 的 问题 。 从 图 16-2 所 示 的 DTD | (u,v,d) — (u',v',d’) 
中 我 们 可 以 看 出 递归 的 章节 ， 因 此 路 径 表达 式 oe 16.5 解决 路 径 表 达 式 //section//section 
可 以 得 到 不 为 空 的 结果 集 。 比 起 明确 地 找 出 所 的 代码 
有 包含 有 其 他 章节 的 章节 ， 我 们 只 需要 注意 那 
些 是 结果 集 一 部 分 的 章节 ， 且 不 要 出 现在 最 顶层 。 因 此 ， 程 序 对 一 级 章节 逐个 进行 处 理 ， 并 
报告 包含 在 其 中 的 所 有 章节 ， 不 需要 考虑 其 深度 。 

第 1 行将 第 1 章节 存储 在 三 元 组 (ww，v，d) 中 。 该 章节 一 定 是 一 级 章节 ， 因 为 它 的 





1 


(u,v, d) — first(“(section)” ) 
(u, v’, d’) — next( “(section)”, u) 
while u < œ do 
ifv’ <v then 
report the interval [u’,v’] 
(u’,v',d’) — next(“{section)”, u’) 
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起 始 位 置 的 值 最 小 。 第 2 行将 第 一 个 候选 章节 〈 可 能 是 结果 集中 的 一 个 元 素 ) 存储 到 三 元 组 
Cw, v, dD 中 。 第 3~8 行 的 循环 逐个 检查 候选 章节 ， 判 断 它 是 否 包含 于 当前 的 一 级 章节 
中 。 如 果 是 ， 在 第 5 行 中 进行 报告 。 如 果 不 是 ， 它 将 在 第 8 行 成 为 新 的 一 级 章节 。 报 告 一 个 
章节 可 以 是 将 其 呈现 给 用 户 ,或 者 更 多 情况 下 是 将 其 保存 以 供 进一步 的 处 理 。 在 计算 结果 集 
时 ， 不 需要 用 到 深度 值 。 

图 16-6 中 的 代码 说 明了 深度 值 的 用 法 ， 即 求 得 了 下 面 的 路 径 表达 式 的 结果 集 

farticle/body/section/p. 
从 DID 中 可 以 看 出 ， 章 节 仅 仅 包含 在 文章 主体 中 ,使 得 在 评价 路 径 表 达 式 时 不 必要 明确 区 分 
是 文章 还 是 文章 主题 。 为 了 满足 路 径 表 达 式 的 要 求 ， 在 结果 集中 的 段落 一 定 要 直接 包含 于 一 级 
章节 中 。 通 过 DTD, 我 们 可 看 出 这 样 的 章节 必须 处 在 
深度 为 4 的 位 置 .以 第 一 个 一 级 章节 (第 1 行 ) 作为 
开始 ， 代 码 遍 历 了 一 级 章节 ， 报告 了 其 包含 的 所 有 深 
度 为 4 的 段落 〈 第 2 一 8 行 )。 从 一 个 一 级 章节 转 到 另 
一 个 一 级 章节 时 ， 第 8 行 调用 的 方法 通过 在 当前 一 级 
章节 结束 以 后 再 进行 索引 ， 跳 过 了 深度 较 浅 的 一 级 章 
i. 第 4~7 行 遍历 了 包含 于 一 级 章节 中 的 全 部 段落 ， 一 
只 有 遇 到 深度 为 4 的 段落 时 才 进 行 报告 (第 5~7 行 )。 ”图 165 解决 路 径 表达 式 /article/body/ 


section/p 的 代码 
16.4 排名 检索 


XML 的 排名 检索 根据 查询 支持 的 类 型 可 视 为 两 
个 不 同 的 问题 。 第 一 个 ， 正 如 标准 的 文档 检索 是 词 项 向 量 排名 一 样 ， 可 以 将 XML 信息 检索 
看 做 把 查询 表达 为 词 项 血 量 的 形式 来 排名 元 素 。 例 如 ， 给 定 一 个 词 项 向 量 text”, “com- 
pression”》 ， 信 息 检 索 系 统 返 回 一 个 根据 这 些 元 素 与 这 条 查询 的 相关 性 概率 排名 的 有 序列 表 。 

第 二 种 观点 就 是 可 以 把 查询 表示 为 使 用 如 NEXI 这 样 的 语言 得 到 的 路 径 表 达 式 。 元 素 根 
据 内 容 和 结构 进行 排名 。 查 询 指定 的 结构 既 可 以 看 成 一 个 严格 的 过 滤器 ， 也 可 以 不 严格 地 看 
做 一 种 提示 。 当 把 它 解释 为 过 滤器 时 ， 只 有 与 路 径 表 达 式 指明 的 结构 完全 匹配 的 元 素 才 会 出 
现在 结果 列表 中 。 当 不 严格 地 看 待 它 时 ， 信 息 检 索 系 统 必须 权衡 结构 需求 和 内 容 需求 之 间 的 
潜在 竞争 关系 。 考 虑 下 面 的 路 径 表达 式 

/article/body/section[about(. /title, "memory requirements”) | 
当 严 格 地 看 待 它 时 ， 信 息 检索 系统 要 求 只 能 返回 一 级 章节 ， 这 些 章节 按照 它们 的 标题 与 
“memory requirements” 这 一 主题 的 相关 性 进行 排序 。 当 不 严格 地 看 待 它 时 ， 相 比 于 其 他 元 
素 ， 信 息 检 索 系 统 可 能 会 更 偏向 于 章节 ， 同 时 对 出 现在 标题 中 的 查询 词 项 赋予 更 高 的 权重 
值 ， 但 是 允许 它 返回 子 章节 、 子 章节 的 子 章节 、 段 落 和 其 他 元 素 。 

在 INEX 术 语 中 ， 按 照 词 项 向 量 对 元 素 进 行 排名 的 问题 称 为 纯 内 容 任务 (content-only 
task) ， 或 CO 任务 。 根 据 路 径 表达 式 对 元 素 进行 过 滤 和 排名 的 问题 称 为 内 容 - 结 构 任 务 
(content-and-structure task), BE CAS 任务 。 可 以 把 CO 任务 中 的 查询 看 做 是 CAS 任务 查 
询 的 一 个 特例 。 为 CO 任务 给 定 一 个 词 项 向 量 o t tn〉》， 我 们 可 将 其 看 做 与 下 面 的 
CAS 查询 是 等 价 的 

// x [about(., "t,t2t,")] 

尽管 大 量 关 于 CAS 查询 的 排名 方法 都 已 经 在 研究 文献 中 提出 过 了 ， 但 是 该 问题 没有 被 很 

好 地 理解 ， 并 且 这 些 方法 中 没有 一 个 可 以 明确 地 胜 过 其 他 方法 。 解 决 CAS 查询 问题 的 一 个 简 








(u,v, d) — first(“(section)”) 
while u < co do 
(u’,v', d’) — next( “(p)”, u) 
while v’ < v do 
if d’ = 4 then 
report the interval [u’,v’] 
(u,v, d’) © next(“(p)”, u’) 
(u,v, d) — next( “(section)”, v) 
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单 而 又 合理 的 方法 就 是 通过 两 步 检索 操作 来 区 别 对 待 结构 和 内 容 。 第 一 步 ， 把 路 径 表 达 式 用 作 
过 滤器 ， 把 结果 限制 为 元 素 的 一 个 子 集 。 在 第 一 步 中 ， 忽 略 路 径 表达 式 的 about 函数 ， 所 有 元 
素 与 任意 主题 的 相关 性 都 是 一 样 的 。 在 第 二 步 中 ， 利 用 出 现在 about 函数 中 的 词 项 构造 出 一 个 
查询 向 量 。 第 一 步 中 选 出 的 元 素 将 根据 这 个 词 项 向 量 进行 排序 。 例 如 ， 给 定 路 径 表达 式 

/article/body/section[ about(. /title, "memory requirements") ] . 

第 一 步 中 会 创建 一 个 一 级 章节 的 集合 ， 第 二 步 会 根据 词 项 向 量 “memory”, “require 
mentss》 对 它们 进行 排名 。 在 about AK 《ytitle) 中 的 结构 约束 可 以 通过 排名 函数 起 作 
用 ， 也 可 以 不 起 作用 。 类 似 地 ， 对 于 路 径 表 达 式 

//article[about(. //p，"compression codes" )and about(. //author, Moffat) ] 

该 方法 会 根据 词 项 向 量 C“compression”, “codes”, “moffat”》 来 对 文章 进行 排名 。 尽管 这 
种 简单 的 方法 可 能 会 忽略 掉 CAS 查询 的 某 些 方面 ， 如 前 面倒 子 中 分 别 对 作者 和 段落 指定 约 
束 ， 但 是 没有 其 他 方法 比 该 方法 具有 更 好 的 性 能 了 。 该 问题 还 有 待 更 进一步 的 研究 。 

16. 4 节 的 剩余 部 分 将 重点 讲解 CO 任务 。 正 如 CAS 查询 一 样 ， 很 多 关于 CO 查询 的 排 
名 方法 都 在 文献 中 提出 过 ， 以 及 在 INEX 中 测试 过 。 尽 管 很 多 方法 都 有 自己 的 价值 ， 但 是 没 
有 一 种 方法 可 以 完全 胜 过 以 下 的 简单 方法 : 采用 如 BM25 等 标准 排名 公式 对 独立 元 素 进行 排 
名 。 该 方法 把 每 个 元 素 看 做 一 个 独立 的 文档 。 这 样 就 可 对 这 个 元 素 集 采 用 文档 排名 的 
方法 。 

当 将 文档 排名 技术 应 用 到 元 素 集合 中 时 ， 马 上 就 出 现 了 一 些 问题 。 首 先 ， 一 个 文本 片段 
可 能 属于 几 个 不 同 的 元 素 。 例 如 ， 图 16-1 所 示 的 期 刊 文章 中 包含 的 文本 片段 可 能 构成 段落 、 
子 章 节 、 主 体 和 文章 本 身 的 一 部 分 。 若 以 检索 为 目的 将 这 些 元 素 都 看 成 一 个 独立 的 “文档 ”， 
这 种 重复 可 能 就 会 改变 词 项 和 文档 的 统计 值 。 其 次 ， 这 些 元 素 的 和 能 套 CE INEX 术语 中 称 为 
“TE 会 导致 检索 结果 的 过 分 宛 余 。 如 果 一 个 段落 是 高 度 相关 的 ， 那 么 包含 它 的 子 章节、 
章节 、 主 体 和 文章 有 可 能 也 具有 很 高 的 相关 性 ,但 是 在 结果 列表 中 将 这 些 元 素 一 一 列 出 可 能 
也 没什么 好 处 。 最 后 ， 并 不 是 所 有 的 元 素 类 型 都 适合 用 作 检 索 结 果 。 有 些 元 素 ， 如 段落 和 章 
节 ， 呈 现 给 用 户 是 合理 的 ， 但 是 其 他 元 素 可 能 就 不 合适 了 。 例 如 对 用 户 而 言 ， 一 个 章节 的 标 
题 可 能 远 没有 包含 这 个 章节 的 章节 重要 。 


16.4.1 排名 元 素 


为 了 进行 排 和 名， 如果 我 们 把 XML 元 素 看 做 独立 的 文档 ， 这 些 XML 元 素 组 成 一 个 集合 
那么 某 个 词 项 的 出 现 次 数 可 能 会 出 现在 几 个 不 同 的 元 素 中 。 例 如 ， 图 16-1 所 示 文 档 的 第 2. 1 
节 的 第 一 段 中 出 现 的 词 项 “method” (“The first method considered…”) 。 该 词 项 的 出 现 可 
看 做 是 段落 、 子 章节 、 章 节 、 主 体 和 文章 的 一 部 分 。 如 果 把 这 些 元 素 都 看 成 独立 的 文档 ， 则 
该 词 项 在 “集合 ”中 出 现 了 5 次 。 

当 在 XML 信息 检索 中 使 用 标准 相关 性 排名 技术 时 ， 会 单独 地 计算 每 个 元 素 的 词 频 统计 
信息 (Mass 和 Mandelbrod，2004) 。 对 于 给 定 元 素 e， 计算 词 频 值 f,。: 词 项 t 在 元 素 e 中 
出 现 的 次 数 。 尽 管 相同 词 项 会 出 现在 多 个 元 素 中 ， 为 计算 词 频 ， 可 以 将 词 项 在 每 个 元 素 中 的 
出 现 都 视 为 是 不 同 的 出 现 。 

. 大 部 分 排名 技术 需要 进行 全 局 统计 信息 ， 如 逆 文 档 频率 需要 将 集合 作为 一 个 整体 来 统 
计 。 计 算 这 种 全 局 统计 信息 的 过 程 中 不 能 将 每 个 元 素 看 做 独立 的 文档 来 考虑 。 在 计算 道 文档 
频率 时 ， 不 能 假设 络 定 词 项 会 重 敬 出 现在 全 部 包含 它 的 元 素 中 ， 因 为 包含 该 词 项 的 元 素数 量 
只 依赖 于 原始 XML 的 结构 安排 〈Vittaut 等 人 ，2004; Kekäläinen 等 人 ，2004) 。 我 们 选择 
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一 个 元 素 的 子 集 ， 使 每 个 词 项 只 出 现在 这 个 子 集 的 一 个 元 素 中 。 例 如 ， 该 子 集 可 能 由 全 部 文 
章 元 素 构成 。 逆 文档 频率 和 其 他 全 局 统计 也 可 能 通过 这 个 子 集 来 计算 得 到 。 

采用 该 方法 来 计算 词 频 和 道 文档 频率 时 ， 我 们 可 以 采用 标准 排名 公式 来 对 元 素 进行 排 
名 。 表 16-1 显示 了 第 162 个 INEX 主题 (“文本 和 索引 压缩 算法 ”) 关于 由 IEEE 杂志 和 期 刊 
文章 组 成 的 INEX 集合 的 前 几 个 元 素 。 该 例子 中 原始 INEX 符号 已 经 过 校正 ， 以 使 其 与 
图 16-2 中 的 DTD 保持 一 致 。 第 一 列 列 出 了 BM25 评分 ;第 二 列 列 出 了 文档 标识 符 ; 第 三 列 
列 出 了 这 些 文档 中 的 元 素 。 所 有 元 素 都 出 自 3 个 文档 。 文 档 /tk/1997/K0302.xml 为 图 16-1 
中 所 示 的 期 刊 文章 。 

表 16-1 IEEE 杂志 和 期 刊 文章 的 INEX 集合 中 针对 查询 《+ “text”, “index”, “compression”, “algo- 

rithms"〉 得 到 的 排名 人 靠 前 的 元 素 。 通 过 把 每 篇 文章 看 做 一 个 文档 来 计算 IDF 值 








BM25 评分 文档 标识 符 元 素 

32.000 923 /co/2000/ry037.xml /article[1]/body([1] 

31.861 366 /co/2000/ry037.xml /article[1] 

31.083 460 /co/2000/ry037.xml /article[1] /body[1]/section|2} 

30.174 324 /co/2000/ry037.xml /article[1]/body[1]/section[5] 

29.420 393 /tk/1997/k0302.xml /article[1] 

29.250 019 /tk/1997/k0302.xml /article[1]/body[1]/section[1] 

29.118 382 /tk/1997/k0302.xml /article[1]/body[1] 

29.075 621 /co/2000/ry037.xml /article[1]/body[1]/section[3] 

28.417 294 /tk/1997/k0302.xml /article[1]/body[1]/section[6] 

28.106 693 /tp/2000/i0385.xml /article[1] 

27.761 749 /co/2000/ry037.xml /article[1] /body[1]/section[7] 

27.686 905 /tk/1997 /k0302.xml /article[1] /body[1|/section[3} 

27.584 927 /tp/2000/i0385.xml /article[1]/body[1] 

27.273 247 /co/2000/ry037.xml /article[1]/body(1]/section[4] 

27.186 977 /tp/2000/i0385.xm] /article[1]/body(1]/section[1] 

27.072 521 /tk/1997/k0302.xml /article[1]/body[1]/section[3]/section(1] 

26.992 224 /co/2000/ry037.xml /article[1]/body[1]/section[5] /section(1] 
16.4.2 EŽTK 


正如 表 16-1 所 示 ， 对 XML 元 素 集 直接 采用 标准 相关 性 排名 技术 会 得 到 一 个 列表 ， 其 中 
高 排名 完全 受 结 构 相 关 元 素 的 影响 。 得 分 较 高 的 章节 一 般 包含 一 些 得 分 较 高 的 段落 ， 或 是 被 
包含 在 得 分 较 高 的 文章 中 。 如 果 这 些 元 素 每 个 都 作为 一 个 独立 的 结果 呈现 给 用 户 ， 那 么 用 户 
将 浪费 大 量 时 间 在 查看 和 排除 多 余 的 内 容 上 。 

一 种 可 能 的 解决 方法 就 是 只 报告 那些 在 树 的 指定 路 径 上 评分 最 高 的 元 素 ， 并 移 除 排名 靠 
后 的 包含 该 元 素 或 包含 于 该 元 素 的 元 素 。 表 16-2 显示 了 在 表 16-1 的 有 序列 表 中 采用 该 方法 
后 得 到 的 结果 。 除 了 表 中 的 三 个 元 素 外 ， 其 他 元 素 全 部 被 淘汰 了 。 对 于 剩 下 的 元 素 ， 两 个 是 
完整 的 文章 ， 一 个 是 文章 的 主体 。 更 大 的 元 素 ， 如 文章 ， 常 常用 于 INEX 集合 。 由 于 这 个 原 
因 ，INEX 集合 中 的 很 多 文章 都 很 专业 并 且 长 度 都 不 太 长 ， 通 常 少 于 1 万 个 词 。 结 果 就 是 ， 
与 主题 相关 的 完整 文章 通常 排名 靠 前 。 
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表 16-2 BAR 16-1 中 的 重生 元 泰 后 得 到 的 排名 靠 前 的 元 素 





BM25 评分 文档 标识 符 元 素 
32.000 923 /co/2000/ry037.xml /article[1] /body[1] 
29.420 393 /tk/1997/k0302.xm1 /article[1] 


28.106 693 /tp/2000/10385.xmh Jarticlef1] 


另外 ， 对 给 定 路 径 只 报告 一 个 结果 会 使 得 XML 信息 检索 的 一 些 优点 无 法 发 挥 。 例 如 ， 
一 个 外 部 元 素 可 能 包含 大 量 信息 ， 而 这 些 信息 不 会 出 现在 内 部 元 素 中 ， 但 是 内 部 元 素 可 能 会 
专注 于 查询 主题 并 且 提 供 关键 概念 的 一 个 简短 概述 。 在 这 种 情况 下 ， 对 高 排名 元 素 ， 可 以 报 
告 它 包含 的 元 素 ， 或 者 包含 于 它 的 元 素 。 甚 至 当 整 本 书 都 与 之 相关 时 ， 用 户 依然 想得到 最 重 
要 的 段落 ， 来 引导 其 阅读 并 节约 时 间 (Fuhr M Groß johann, 2001; Clarke, 2005). 


16.4.3 TRETE 


尽管 XML 信息 检索 系统 也 可 以 检索 任何 元 素 ， 但 是 很 多 元 素 不 适合 作为 检索 结果 。 这 
通常 就 是 元 素 包含 很 少 的 文本 的 情况 (Kamps 等 人 ，2004) 。 例 如 ， 仅 包含 查询 词 项 的 章节 
的 标题 在 排名 算法 中 会 获得 很 高 的 评分 ， 但 是 单单 这 个 标题 对 用 户 是 没什么 用 处 的 ， 用 户 更 
想 看 到 实际 章节 的 内 容 。 其 他 元 素 反 映 了 文档 的 物理 结构 而 不 是 逻辑 结构 ， 如 字体 变化 ， 这 
对 用 户 来 说 几乎 也 是 没有 什么 用 处 的 。 一 个 高 效 的 XML 信息 检索 系统 必须 只 返回 那些 包含 
足够 有 价值 的 内 容 并 且 能 作为 一 个 对 象 独立 存在 的 元 素 〈Pehcevski 等 人 ，2004; Mass 和 
Mandelbrod，2003) 。 标 准 文档 的 组 成 部 分 ， 如 有 段落、 章节 、 子 章节 和 摘要 ， 通 常 满足 这 些 
要 求 ; 标题 、 斜 体 的 短语 以 及 相似 的 元 素 通 常 不 满足 这 一 要 求 。 


16.5 评价 


XML 信息 检索 系统 的 评价 是 12 章 中 的 有 效 性 指标 的 扩展 。 在 扩展 这 些 指标 时 ， 我 们 必 
须 考 虚 前 面 章节 中 排名 方法 所 考虑 的 同样 的 问题 ， 特 别 是 有 关 重 要 的 问题 。 


16.5.1 测试 集 


迄今 为 止 ，INEX 只 关注 大 规模 XML 信息 检索 的 评价 方法 。 截 至 2006 年 ，INEX 上 的 
主要 检索 集 由 12 000 多 篇 文章 组 成 ， 它 们 取 自 1995 年 到 2002 年 间 的 IEEE 计算 机 协会 的 杂 
志和 期 刊 。 图 16-1 显示 了 一 个 取 自 该 集合 的 典型 文档 的 例子 〈 尽 管 INEX 集合 中 采用 的 标 
记 差 别 不 大 ) 。 集 合 总 大 小 约 为 500 MB。 在 2006 年 ， 收 集 维基 百科 全 书 的 文章 得 到 了 一 个 
更 大 的 集合 。 这 个 新 集合 由 超过 600 000 篇 英文 文章 组 成 ， 其 总 大 小 超过 4 GB。Denoyer 和 
Gallinari (2006) 描述 了 该 集合 的 创建 和 组 织 情况 。 近 几 年 ， 为 进行 一 系列 特定 的 INEX 实 
验 建 立 起 了 第 三 个 集合 。 该 集合 包含 50 000 多 册 已 过 版 权 保护 期 的 书籍 ， 其 总 大 小 超过 
50 GB (Wu 等 人 ，2008) 。 

在 INEX 上 的 主题 创建 和 评判 一 直 以 来 就 归功 于 所 有 参与 者 的 共同 努力 。 每 个 参与 小 组 
创建 2 或 3 个 主题 ， 然 后 INEX 组 织 者 对 这 些 主题 进行 收集 和 审查 。 完 成 主题 设 定 以 后 ， 组 
织 者 将 它们 分 派 给 各 个 小 组 ， 这 些小 组 会 把 XML 元 素 的 有 序列 表 返 回 给 组 织 者 。 评 判 池 由 
各 个 小 组 提交 的 运行 实例 组 成 。 使 用 组 织 者 提供 的 评判 界面 ， 参 与 小 组 用 评判 池 对 他 们 的 结 
果 进 行 评判 。 基 于 这 些 评 判 结果 ， 组 织 者 计算 有 效 性 指标 ， 这 些 指标 将 成 为 官方 结果 。 
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16.5.2 有效 性 指标 


重合 会 导致 出 现 大 量 的 检索 评价 问题 ， 自 创建 INEX 以 来 ， 组 织 者 和 参与 者 就 在 全 力克 
服 这 些 问 题 (Kazai 和 Lalmas，2006)。 尽 管 已 经 取得 了 很 显著 的 进步 ， 但 这 些 问题 还 没有 
得 到 完全 解决 。 另 外 ， 由 于 XML 信息 检索 的 目标 是 找到 那些 完全 覆盖 一 个 主题 但 尽 可 能 少 
包含 无 关 信息 的 元 素 ， 因 此 对 独立 元 素 进 行 简单 的 “相关 ”与 “不 相关 ”判断 是 不 够 的 。 能 
够 发 展 出 一 些 在 满足 XML 信息 检索 的 需求 同时 保持 判断 过 程 的 简便 性 的 指标 ， 这 方面 已 经 
做 出 了 多 种 尝试 。 

其 中 一 种 方法 是 : INEX 组 织 者 根据 两 个 方面 判断 相关 性 (Piwowarski 和 Lalmas， 
2004) 。 每 个 元 素 都 按照 这 两 个 方面 分 别 进 行 判断 。 第 一 个 方面 是 详尽 性 (exhaustivity), 
反映 元 素 涵盖 主题 的 程度 。 第 二 个 方面 是 特异 度 (specificity)， 反 映 元 素 对 某 个 主题 的 专注 
程度 。 两 个 指标 都 采用 四 分 级 制 。 因 此 ，a (3，3) 元 素 具有 高 详尽 性 和 高 特异 上 度 ， 
a〈1，3) 元 素 具有 低 详 尽 性 和 高 特异 度 ，a (0，0) 元 素 是 不 相关 的 。 

人 们 开始 努力 使 已 有 的 有 效 性 指标 中 也 采用 这 两 种 指标 。 其 中 一 个 尝试 是 ， 早期 的 IN- 
EX 会 议 中 采用 了 2. 3 节 中 描述 的 平均 查 准 率 均值 CMAP) 的 一 个 版 本 作为 指标 ， 该 版 本 的 
MAP 做 了 如 下 调整 : 通过 使 用 各 种 量化 函数 Cquantization function) 根据 详尽 性 和 特异 度 
的 值 为 不 同 元 素 赋 予 不 同 的 权重 值 。 如 ， 严 格 量化 (strict quantization) 函数 给 (3, 3) 元 
素 赋予 的 权重 值 为 1， 其 余 元 素 全 为 0。 这 个 变形 本 质 上 就 是 标准 MAP 值 , 将 (3, 3) 元 
素 看 做 “相关 ”， 把 其 他 元 素 看 做 “不 相关 ”。 其 他 量化 函数 设计 成 对 元 素 进行 部 分 评分 ， 这 
是 由 于 元 素 缺 乏 详 尽 性 和 /或 特异 度 而 被 列 为 “近似 忽略 ”的 元 素 。 泛 化 量化 (generalized 
quantization) 函数 和 特异 度 导向 泛 化 〈specificity-oriented generalization, sog) 函数 都 按照 
“元 素 的 相关 度 ”来 给 元 素 评分 (Kazai 等 人 ，2004)， 第 二 个 函数 更 偏向 于 特异 度 。 

遗憾 的 是 ， 该 版 本 的 MAP 并 未 处 理 重要 现象 。 特 别 是 ， 即 使 (3，3) 元 素 包 含 具 有 很 
高 得 分 的 元 素 ， 泛 化 量化 函数 和 sog 量化 函数 也 还 是 给 予 评 分 。 为 解决 这 一 问题 ，Kazai 等 
A (2004) 以 及 Kazai 和 Lalmas (2006) 开发 出 了 一 种 称 为 XCG 的 XML 累计 增益 (XML 
cumulated gain) 的 指标 ， 它 扩展 了 12.5.1 节 中 的 nDCG 这 一 指标 。XCG 指标 把 有 序列 表 的 
累计 增益 与 理想 增益 向 量 进 行 对 比 。 通 过 消除 重 堆 元素 并 且 只 留 下 给 定 路 径 上 的 最 优 元 素 ， 
利用 相关 性 判断 构造 出 这 个 理想 增益 向 量 。 因 此 ，XCG 指标 偏向 于 那些 能 避免 重 委 元 素 的 
检索 运行 实例 。 

最 近 ，INEX 会 议 的 参与 者 通过 标记 文章 中 的 相关 部 分 来 进行 相关 性 判断 。 当 评价 元 素 
的 有 序列 表 时 ， 可 以 通过 计算 检索 到 的 标记 文本 部 分 占 全 部 标记 文本 的 比率 来 计算 查 全 率 ， 
通过 计算 检索 到 的 标记 文本 占 全 部 检索 到 的 文本 的 比率 来 得 到 查 准 率 。 


16.6 ”延伸 阅读 


XML 是 一 个 重要 的 Web 标准 ， 甚 重要 性 已 超出 了 信息 检索 的 范围 。 大 量 并 不 断 增多 的 
应 用 均 使 用 XML 进行 数据 存储 和 数据 交换 。 例 如 ，XML Æ Microsoft Office 2007 和 Ope- 
nOffice 办 公 套 件 的 主要 文档 格式 。 大 多 数 主流 数据 库 的 供应 商 现 在 都 通过 对 传统 关系 数据 
库 功 能 进行 扩展 来 实现 对 XML 的 支持 。 可 以 从 各 个 层次 认识 XML， 从 基本 层次 (Tittel 和 
Dykes，2005) 到 专业 层次 (Evjen 等 人 ，2007)。 

在 20 世纪 90 年 代 后 期 ， 数 据 库 研 发 人 员 开 发 并 评价 了 大 量 关 于 XML 查询 语言 的 方 
案 ， 其 中 最 著名 的 有 : Stanford 大 学 的 Lorel 语言 (Abiteboul 等 人 ，1997)， 来 自 INRIA 
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的 YATL 语言 (Cluet ÆA, 2000), WA Quilt 语 言 (Chamberlin 等 人 ，2000)。 几 年 之 间 
该 项 研究 被 整合 为 XQuery 语言 的 初级 标准 ， 尽 管 1. 0 版 本 的 XQuery 语言 到 2007 年 才 发 
fi © Melton 和 Buxton (2006) 为 XPath, XQuery 和 其 他 查询 XML 的 方法 提供 了 一 个 可 读 
并 非常 详细 的 解释 。 

XQuery 1. 0 标准 不 具备 更 新 XML 文档 的 功能 。 这 些 功 能 都 是 在 XQuery Update Facil- 
ity 1.0 后 加 上 去 的 ， 并且 在 2008 年 8 月 由 W3C 发 布 .最近 W3C 为 “ 纯 文本 ”扩展 到 
XQuery 和 XPath 中 提供 了 一 些 指 导 性 意见 。S 这 些 意见 包括 支持 关键 词 、 布 尔 搜索 和 对 元 素 
排名 提供 有 限 支持 。 

需要 专门 索引 来 有 效 地 解决 路 径 表 达 式 的 问题 。Al-Khalifa $A (2002) 描述 了 一 种 结 
构 化 索引 (structural index), ， 用 于 有 效 地 匹配 查询 和 文档 树 。Zhang 等 人 《2001) 提出 一 
些 方法 来 解决 传统 关系 数据 库 系统 中 内 容 的 路 径 表 达 式 子 集 的 问题 。Bruno SA (2002) 对 
该 项 工作 做 了 实质 性 的 扩展 ， 提 出 了 一 种 算法 来 支持 小 型 查询 树 〈 称 为 小 枝 ) 与 一 棵 表示 
XML 文档 集 的 大 很 多 的 树 的 匹配 。 他 们 称 这 个 算法 为 整枝 连接 (holistic twig join), #7 
该 方法 是 通过 采用 倒 排列 表 来 解决 路 径 表 达 式 问题 的 基本 方法 。 在 16. 3 节 中 提出 的 为 倒 排 
列表 扩展 的 ADT 就 基于 他 们 的 数据 结构 的 。 

后 来 的 那些 解决 路 径 表达 式 问 题 的 研究 都 是 基于 整枝 连接 算法 的 。Jiang FA (2003) 
提出 了 一 种 提高 整枝 连接 算法 效率 的 方法 。Kaushik SA (2004) 将 整枝 连接 算法 和 结构 化 
连接 算法 相 结合 以 便 更 好 地 利用 可 用 的 结构 化 信息 。Lu 等 人 《〈2005) 提出 了 另外 一 些 用 于 
整枝 连接 处 理 的 提高 和 扩展 的 算法 。Gottlob 等 人 (2005) 在 树 匹 配 之 外 进行 了 一 些 探索 ， 
深入 探索 XPath 查询 的 语义 细节 问题 。Zhang 等 人 〈2006) 提出 了 一 种 基于 特征 的 文档 子 结 
构 索 引 ， 该 方法 用 于 为 路 径 表 达 式 快速 找 出 候选 结果 集 。 

在 数据 库 领域 ， 排 名 检索 通常 被 称 为 “top-k” 检 索 。Theobald SA (2008) 就 对 
XML 和 其 他 半 结 构 化 数据 ， 包 插 支 持 XML 纯 文 本 扩展 ， 进 行 top-k 检索 ， 提 出 了 一 些 索 
引 结 构 和 查询 处 理 方法 。Trotman (2004) 就 对 XML 和 其 他 结构 性 文档 进行 检索 排名 提出 
了 其 他 解决 方法 。 

在 INEX 组 织 者 和 参与 者 的 共同 努力 下 ，XML 信息 检索 的 研究 得 到 了 飞速 发 展 .9 现在 
INEX 上 的 项 目 已 从 基本 检索 任务 扩大 到 探索 如 实体 排名 、 问 答 、 数 据 挖 气 、 段 落 检索 和 链接 
分 析 等 的 主题 了 。 近 期 INEX 的 一 系列 工作 主要 是 Fuhr 等 人 (2007, 2008) 最 新 的 研究 工作 。 

其 他 的 XML 信息 检索 研究 都 是 解决 更 广泛 的 问题 的 ， 主 要 是 权衡 内 容 和 结构 之 间 的 平 
衡 。Amer-Yahia 等 人 (2005) 描述 并 评价 了 一 些 用 于 XML 信息 检索 的 高 效 的 查询 处 理 方 
法 ， 该 方法 考虑 了 异类 集合 上 内 容 和 结构 的 平衡 。Kamps $A (2006) 验证 了 如 何 最 好 地 
表达 跟 内 容 和 结构 都 有 关 的 查询 。Lehtonen (2006) 研究 了 有 关 异 类 集合 上 进行 XML 信息 
检索 的 问题 。Chu-Carroll 等 人 (2006) 提出 了 一 种 在 XML 集合 上 进行 语义 搜索 的 基于 XML 
的 查询 语言 。Amer-Yahia 和 Lalmas (2006) 对 截至 2006 年 的 XML 信息 检索 研究 进行 了 一 
个 简短 的 调查 。 

关于 XML 信息 检索 的 评价 方法 的 研究 工作 仍 在 进行 。Kazai 等 人 《2004) 针对 INEX 
检索 评价 中 的 重 倒 问题 给 出 了 -一 个 详细 的 阐述 ， 并 提出 了 大 量 潜在 的 评价 方法 。 关 于 详尽 性 





© www. w3. org/TR/ xquery 

© www.w3. org/TR/xquery-update-10 
© www. w3. org/TR/xpath-full-text-10/ 
@ www. inex. otago. ac. nz 
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和 特异 度 的 更 进一步 信息 可 从 Piwowarski 和 Lalmas (2004) 那里 得 到 ， 他 们 对 这 些 概念 的 基 
本 原理 进行 了 详尽 的 前 述 。Kazai 和 Lalmas (2006) 对 nDCG 评价 方法 应 用 于 XML 信息 检索 评 
价 中 的 问题 进行 了 精确 的 分 析 。Piwowarski $A (2008) 对 XML 信息 检索 评价 进行 了 深入 的 
讨论 ， 从 对 INEX 的 学 习 中 总 结 了 大 量 的 经 验 教训 。Ali BA (2008) 为 XML 信息 检索 的 评价 
提出 了 一 个 框架 ， 他 们 认为 当 考 虑 重 亚 所 产生 的 影响 时 ， 应 考虑 到 用 户 可 能 会 浏览 历史 记录 。 

理想 的 XML 信息 检索 测试 集 的 单一 性 应 小 于 两 个 主要 的 INEX RA. IEEE 集合 和 维 
基 百 科 集 合 。 对 这 两 个 集合 来 说 ， 一 个 DTD 就 能 描述 一 个 集合 所 包含 的 所 有 文章 。 这 些 集 
合 中 包含 文章 的 大 小 都 差不多 。 每 篇 文章 都 小 到 足以 在 很 短 时 间 内 将 其 全 部 阅读 完毕 。 理 想 
的 XML 信息 检索 测试 集 应 该 包含 大 量 不 同 的 文档 ， 这 些 文档 的 大 小 不 同 ， 且 具有 不 同 的 
DTD。 这 样 的 集合 应 该 包含 书籍 和 其 他 较 长 的 文档 以 及 短 一 些 的 文章 。 在 将 来 或 许 会 有 满 
足 这 些 条 件 的 XML 书籍 集 (Wu 等 人 ，2008; Koolen 等 人 ，2009) 。 


16.7 练习 


练习 16. 1 为 图 1-3 中 的 莎士比亚 戏剧 的 结构 创建 一 个 与 其 相符 的 DTD。 

练习 16. 2 通过 修改 图 16-6 中 的 第 5~7 行 的 代码 跳 过 段落 所 包含 的 章节 ， 从 而 可 以 在 求解 路 径 表 达 式 
/article/body/section/p 时 不 考虑 深度 。 请 写 出 该 修改 算法 。 你 的 版 本 比 图 16-6 中 的 版 本 更 高 效 吗 ? 

练习 16.3 请 写 出 解决 路 径 表 达 式 /article/ body/section/section 的 一 个 算法 ， 假设 DTD 如 图 16-2 所 
示 ， 倒 排 索引 ADT 如 16. 3 节 所 述 。 

练习 16.4 请 写 出 解决 路 径 表 达 式 /article/body/section [2] 的 一 个 算法 ,假设 DID 如 图 16-2 所 示 ， 
倒 排 索引 ADT 如 16. 3 WAT. 
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Information Retrieval: Implementing and Evaluating Search Engines 


计算 机 性 能 


本 书 第 二 部 分 中 的 章节 列举 了 大 量 与 倒 排 索引 相关 的 技术 性 能 数据 。 为 了 使 这 些 数 据 有 
合适 的 说 明 ， 我 们 给 出 了 计算 机 性 能 方面 一 些 重要 因素 的 简要 概述 ， 并 总 结 了 本 书 中 用 于 实 
验 的 计算 机 系统 的 关键 性 能 指标 OLK A-1)。 


RAI 用 于 本 书 实验 的 计算 机 系统 的 关键 性 能 指标 。 系 统 有 两 个 硬盘 驱动 器 ， 采 用 RAID-0 ( 硬 
AE (striping) ) 方式 排列 。 第 二 部 分 中 的 索引 /检索 实验 中 的 所 有 磁盘 操作 都 是 基于 








RAID-0 的 
CPU 
型 号 1X AMD Opteron 154, 2.8 GHz 
数据 缓存 64 KB (L1), 1024 KB (L2) 
TLB 缓存 40entries (L1), 5l2entries (L2) 
执行 流水 线 12 步 
磁盘 
总 大 小 2X465.8 GB 
平均 旋转 延迟 4.2 ms (7000 rpm) 
平均 寻 道 延迟 8. 6 ms 
平均 随机 访问 延迟 12.8 ms (3600 万 个 CPU 周期 ) 
顺序 读 / 写 吞吐 量 (单个 磁盘 》 45.5 MB/s 
顺序 读 / 写 吞 吐 量 〈RAID-0) 87. 4 MB/s 
内 存 
总 大 小 2048 MB 
随机 存 取 延迟 75 ns (4¢210 个 CPU 周期 ) 
顺序 读 / 写 吞吐 量 3700 MB/s 


信息 检索 系统 ， 如 大 部 分 数据 库 系 统一 样 ， 花 费 大 量 时 间 将 数据 从 计算 机 的 一 部 分 转移 
到 另 一 部 分 。 它 们 的 性 能 主要 受 两 个 因素 的 影响 : 数据 访问 局 部 性 和 流水 线 执行 。 

数据 局 部 性 在 这 里 是 指 顺 序 访问 与 随机 访问 。 顺 序数 据 访问 模式 的 一 个 例子 就 是 第 
5.1.2 节 中 提 到 的 析 取 查询 中 的 term-at-a-time 的 查询 处 理 策略 。 随 机 数据 访问 的 一 个 例子 
就 是 第 4. 2 节 中 的 有 序 词典 ， 其 中 查询 操作 是 通过 二 分 查找 实现 的 。 无 论 我 们 将 索引 存储 在 
内 存 还 是 磁盘 ， 人 性 能 通常 都 会 提高 。 我 们 可 以 通过 重 排 数据 来 便于 顺序 访问 。 l 

流水 线 执行 是 现代 微 处 理 器 的 工作 特点 ， 它 允许 CPU 在 处 理 一 条 指令 In BEARERS 
一 条 指令 Tri。 为 了 实现 这 一 点 ，CPU 需要 在 完成 In 之 前 知道 1I4+1 的 地 址 。 如 果 I 是 分 
支 指令 〈 即 “IF” 语 句 )， 这 就 比较 难处 理 了 。 
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A.1 磁盘 上 的 顺序 访问 和 随机 访问 


对 硬盘 驱动 器 而 言 ， 在 读 出 数据 之 前 必须 让 驱动 器 的 读 写 头 指向 数据 所 在 的 位 置 ， 因 此 
顺序 访问 和 随机 访问 的 区 别 是 十 分 明显 的 。 这 个 定位 操作 包含 两 个 阶段 :第 一 阶段 先 将 读 写 
头 定位 到 存储 该 数据 的 磁道 上 ( 寻 道 延迟 (seek latency); 第 二 阶段 等 待 磁盘 转 到 正确 位 
置 ， 使 我 们 要 读 的 数据 恰好 在 读 写 头 所 指 位 置 (旋转 延迟 (rotational latency))。 

平均 旋转 延迟 取决 于 硬盘 驱动 器 的 转动 速度 。 如 果 磁 盘 每 分 钟 转动 7200 转 (rpm), Je 
转 一 周 用 时 1/120 s~8.3 ms。 为 读 取 磁 盘 任意 位 置 上 的 数据 ， 需 要 平均 等 待 磁盘 转动 半 周 
的 时 间 一 一 约 为 4. 2 ms, 

索引 操作 的 平均 寻 道 延迟 取决 于 索引 的 规模 。 较 小 的 索引 占用 较 少 的 磁道 数 ， 因 此 连续 
读 操 作 之 间 磁 头 需 要 更 少 的 移动 距离 。 例 如 ， 尽 管 我 们 实验 中 用 到 的 硬盘 平均 随机 访问 延迟 
约 为 12. 8ms ( 寻 道 延迟 :8.6 ms; 旋转 延迟 : 4.2 ms)， 但 是 在 GOV2 文档 集 上 进行 的 词 
典 交 错 实 验 中 平均 查找 延迟 仅 为 11.4 ms GE 4-4) 因为 索引 仪 占用 了 磁盘 13% 的 空间 .9 


A.2 RAM 中 的 顺序 访问 和 随机 访问 


对 于 内 存 来 说 ， 上 顺序 访问 和 随机 访问 的 差别 并 不 十 分 明显 ， 并 日 实际 上 我 们 通常 把 主 存 
视 为 随机 访问 内 存 (random access memory)， 这 意味 着 即使 存在 差别 也 是 可 以 忽略 的 。 然 
而 ， 事 实 并 非 如 此 。 | 

使 用 缓存 可 以 加 快 CPU 和 主 存 之 间 的 数据 传输 。 在 这 里 介绍 两 种 最 相关 的 缓存 : 

。 数据 缓存 (data cache) 。 该 缓存 位 于 CPU 和 主 存 之 间 ， 存 放 最 近 使 用 过 的 数据 的 副 
本 ， 以 缓存 行 (cache lines) 的 形式 进行 排列 ， 每 行 通常 存放 64 字 节 的 数据 。 缓 存 - 
行 代 表 了 计算 机 主 存 和 缓存 通信 的 粒度 。 如 果 一 个 程序 从 RAM 中 读 一 个 字 节 数据 ， 
整个 缓存 行 都 要 被 加 载 到 缓存 中 ， 这 样 在 后 续 操 作 中 ， 同 一 行 的 其 他 字 节 的 处 理 速度 
就 会 提高 。 数 据 缓存 通常 不 是 单个 缓存 ， 而 是 一 个 层级 结构 的 缓存 ， 如 展 级 - 1), 
层级 - 2 〈L2) ， 以 此 类 推 。Ll 缓存 位 于 最 顶层 ， 在 所 有 层次 中 最 快 ， 但 同时 也 最 小 。 
后 备 转换 缓冲 器 (TLB) 。 实 际 上 所 有 现代 微 处 理 器 都 支持 虚拟 内 存 ， 也 就 是 程序 访 
问 的 数据 地 址 〈 虚 拟 地 址 ，virtual address) 不 同 于 它 在 主 存 中 的 实际 存储 地 址 〈 物 
理 地 址 ，physical address) 。 虚 拟 地 址 和 物理 地 址 之 间 的 转换 是 通过 页 表 (page ta- 
ble) 实现 的 ;转换 的 粒度 就 是 一 个 页 面 (page) ， 大 小 通常 为 4KB 或 8 KB. 

一 种 虚拟 内 存 的 简单 实现 是 ， 每 次 内 存 访问 需要 两 个 物理 操作 : 一 个 用 于 页 表 (将 虚拟 
地 址 转换 为 物理 地 址 ) ， 另 一 个 用 于 实际 的 数据 访问 。 为 避免 导致 性 能 下 降 ， 处 理 器 采用 一 
类 特殊 的 缓存 ， 就 是 TLB， 它 保存 最 近 访 问 的 页 表 的 入 口 地 址 的 副本 。 

不 论 是 数据 丢失 还 是 TLB 丢失 ， 缓 存 丢 失 的 代价 是 相当 昂贵 的 ， 而 且 很 容易 耗费 大 量 
的 CPU 周期 。 在 最 坏 情况 下 ， 一 次 内 存 访 问 能 同时 导致 数据 缓存 丢失 和 TLB ER. HFR 
们 实验 中 所 使 用 的 计算 机 而 言 ， 这 样 的 双重 丢失 会 导致 约 为 75 ns 的 时 间 损 耗 ， 足 够 顺序 读 
出 大 约 300 字 节 的 数据 了 。 

值得 指出 的 是 ， 很 多 随机 访问 索引 操作 会 导致 数据 /TLB 双重 缓存 丢失 。 这 就 是 为 什么 
第 6.4 节 中 提出 的 分 组 技术 不 仅 能 降低 搜索 引擎 词典 的 规模 ， 同 时 还 能 提高 查找 性 能 的 原因 








曲 然而 ， 请 注意 ， 文 件 系统 (ext3〉 并 不 能 严格 保证 索引 在 磁盘 上 是 连续 的 。 很 有 可 能 案 引 不 是 严格 连续 的 ， 但 如 
果 能 保证 索引 是 连续 的 ， 可 以 实现 更 低 的 延迟 。 
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LÆ 6-12) ， 因 为 它 降低 了 在 二 分 查找 阶段 每 次 词典 查找 的 随机 内 存 访 问 的 次 数 。 


A.3 ”流水线 执行 和 分 支 预测 


自 20 世纪 80 年 代 中 期 开始 ， 流 水 线 执行 就 成 了 CPU 设计 的 标准 技术 ， 当 时 Intel 公司 
推出 了 i386 系列 微 处 理 器 。 其 基本 思想 就 是 ， 一 条 机 器 指令 不 会 同时 占用 CPU 的 各 个 部 
分 。 因 此 ， 通 过 流水 安排 执行 的 各 个 阶段 ， 可 以 提高 利用 率 和 总 体 性 能 。 

考虑 最 简单 的 三 阶段 流水 线 : 

1) 取 指 令 。 从 主 存 或 缓存 中 加 载 指令 到 CPU, 

2) 解码 。 将 指令 的 内 存 形式 翻译 成 CPU 可 以 执行 的 微 指令 。 

3) 执行 。 处 理 器 执行 指令 并 更 新 受 影响 的 CPU 寄存 器 和 内 存 位 置 。 

如 果 运 行 一 个 没有 分 支 指令 的 线性 程序 ， 那 么 流水 线 的 3 个 阶段 可 一 直 保 持 工 作 状 态 。 
然而 ， 如 果 现 在 流水 线 中 的 一 个 指令 ， 如 In ， 是 一 个 分 支 指 令 ， 那么 处 理 器 就 不 知道 接 下 
来 的 指令 Ina Bl Ts 的 地 址 了 ， 这 样 就 不 能 在 执行 完 In 之 前 对 它们 进行 加 载 了 。 这 就 产生 
了 流水 线 停顿 〈stalled) 。 

现代 处 理 器 通过 使 用 分 支 预测 (branch prediction) 技术 来 解决 这 一 问题 ， 该 方法 基于 
过 去 的 分 支行 为 尝试 预测 即将 调用 的 是 给 定 分 支 指令 中 的 IF 分支 还 是 ELSE 分 支 。 基 于 这 
一 预测 ， 它 们 将 接 下 来 可 能 执行 的 指令 加 载 到 流水 线 中 。 一 旦 预测 失败 ,丢弃 对 指令 Int 
和 Ts 进行 的 工作 ， 并 将 另外 的 指令 加 载 到 CPU 中 ， 这 将 导致 流水 线 部 分 空转 。 

预测 准确 率 通常 可 高 达 90% 以 上 ， 但 是 对 特定 操作 类 型 的 预测 准确 率 可 能 会 低 很 多 。 
大 家 可 能 还 记得 第 6. 3. 1 节 中 的 y 编码 。 这 种 编码 的 一 种 简单 译 码 方法 是 通过 检查 压缩 位 序列 
来 处 理 每 个 码 字 的 一 元 部 分 ， 每 次 处 理 1 位 ， 直 至 处 理 到 第 一 个 1 位 为 止 ， 大 致 如 以 下 流程 : 

1 bitPos — 

2 for | + 1 to ndo 

3 kel 

4 while bitSequence|bitPos| = 0 do 

5 bitPos — bitPos +1 

6 kek+1 
7 取 接 下 面 上 位 来 对 当前 码 字 进行 译 码 

8 bitPos 一 bitPos+k 
第 2 行 的 条 件 跳 转 是 没有 问题 的 ， 因 为 处 理 器 能 迅速 认识 到 不 应 该 跳出 循环 (假设 n 足够 
大 ) 。 然 而 ， 要 预测 第 4 行 的 分 支 就 比较 复杂 了 。 考 虑 一 个 已 编码 位 置信 息 序 列 ， 其 中 yA 
码 的 一 元 部 分 为 1 即位 序列 I) 代表 位 置信 息 的 一 半 ，2〔 即 位 序列 01》 表示 另 一 半 位 置信 
息 。 然 后 CPU 大 约会 用 1/3 的 时 间 在 第 4 行 和 第 5 行 之 间 运 行 ， 用 2/3 的 时 间 执 行 第 8 行 。 
最 优 的 策略 是 始终 进行 分 支 预测 〈 即 假设 DitSequence[ bitPos 为 1) 。 它 导致 的 预测 失效 率 
W 33%, 

对 于 前 面 介 绍 的 简单 3 阶段 流水 线 而 言 ， 预 测 失 效率 为 33% 看 起 来 还 是 不 错 的 。 然 而 ， 
现代 微 处 理 器 的 执行 流水 线 由 十 几 或 更 多 的 阶段 组 成 ， 重 复 的 预测 失效 会 大 大 地 降低 处 理 器 的 
执行 效率 。 表 驱动 解码 减少 了 分 支 预测 失效 的 次 数 ， 因 此 逐 位 解码 程序 更 偏向 采用 这 种 方法 。 


